通识教育 - 智享数据科学资源平台

Dec

15

什么是探索性分析

探索性分析是对变量进行深入和详尽的描述性统计分析，它在一般描述性统计指标的基础上，增加关于数据其他特征的文字与图形描述，分析结果更加细致与全面，有助于对数据做进一步分析。探索性分析，能够生成关于所有个案、或不同分组个案的综合统计量及图形；可...

Dec

15

数据重采样

针对时序数据可采用数据重采样方法，将时间序列从一个频率转换至另一个频率的过程，它主要有两种实现方式，分别是降采样和升采样，降采样指将高频率的数据转换为低频率，升采样则与其恰好相反，将低频率数据转换到高频率。对于一些高密度传感器，会在毫秒级别...

Dec

15

数据分析的六大基本步骤

数据分析过程主要包括6个既相对独立又互有联系的阶段。它们是：明确分析目的和内容、数据收集、数据处理、数据分析、数据展现、报告撰写等6步，且这六个步骤是相互衔接，不可缺少的。

Dec

15

异常值检测——基于统计分析的方法

数据分布模型可以通过估计概率分布的参数来创建。如果一个对象不能很好地同该模型拟合，即如果它很可能不服从该分布，则它是一个异常。3σ-法则假设一组检测数据只含有随机误差，对原始数据进行计算处理得到标准差，然后按一定的概率确定一个区间，认为误差...

Dec

15

什么是数据收集

数据收集是按照一定的数据分析框架，收集与项目相关数据的过程。数据收集为数据分析提供资料和依据。数据收集的类型包括一手数据和二手数据。一手数据是指能直接获得的数据，如公司内部数据库；二手数据是指需要加工整理后获得的数据，如公开出版物中的数据。...

Dec

15

异常值检测——基于密度的方法

基于密度的异常检测有一个先决条件，即正常的数据点呈现“物以类聚”的聚合形态，正常数据出现在密集的邻域周围，而异常点偏离较远。对于这种场景，我们可以计算得分来评估最近的数据点集，这种得分可以使用Eucledian距离或其它的距离计算方法，具体...

Dec

15

数据集的使用技巧

数据集内的筛选与排序在填充数据集之后，通常会发现使用表中的不同记录子集或以不同顺序查看数据很有用。可以通过对数据集内的数据进行筛选和排序来实现这一点。若要简化此过程，可以创建数据视图，数据视图提供可合并筛选器和排序条件的对象，可用作数据绑定...

Dec

15

数据收集的主要来源

1.数据库每个公司都有自己的业务数据库，包含从公司成立以来产生的相关业务数据。这个业务数据库就是一个庞大的数据资源，需要有效地利用起来。2.公开出版物可用于收集数据的公开出版物包括《中国统计年鉴》《中国社会统计年鉴》《中国人口统计年鉴》《世...

Dec

15

异常值检测——基于聚类的方法

通常，类似的数据点往往属于相似的组或簇，由它们与局部簇心的距离决定。正常数据距离簇中心的距离要进，而异常数据要远离簇的中心点。聚类属于无监督学习领域中最受欢迎的算法之一，关于聚类异常检测可分为两步：①利用聚类算法聚类;②计算各个样本点的异常...

Dec

15

什么是数据集

Data set（或dataset）是一个数据的集合，通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量，如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数，该...

Dec

15

数据分析与数据处理的区别

数据处理是数据分析的基础。通过数据处理，将收集到的原始数据转换为可以分析的形式，并且保证数据的一致性和有效性。如果数据本身存在错误，那么即使采用最先进的数据分析方法，得到的结果也是错误的，不具备任何参考价值，甚至还会误导决策。

Dec

15

异常值检测——基于树的方法

这类方法为基于划分的方法范畴。最简单的划分方法就是阈值检测，其通过人为经验划定阈值，对数据进行异常判断。具体的，为了避免单点抖动产生的误报，需要将求取累积的窗口均值进行阈值判别，具体的累积就是通过窗口进行操作。高级的基于划分的异常检测算法，...

Dec

15

数据分析与处理方法

采集在大数据的采集过程中，其主要特点和挑战是并发数高，因为同时有可能会有成千上万的用户来进行访问和操作，比如火车票售票网站和淘宝，它们并发的访问量在峰值时达到上百万，所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均...

Dec

15

数据分析与数据挖掘的关系

数据挖掘是深层次的数据分析，数据分析是浅层次的数据挖掘，数据挖掘更偏重于探索性数据分析，因为数据挖掘的重点是从数据中发现知识规律。它们的具体区别如下：（1）数据分析处理的数据量可能不大；而数据挖掘处理的数据量极大，并且特别擅长处理大数据...

Dec

15

异常值检测——基于降维的方法

PCAPCA[线性方法]在做特征值分解之后得到的特征向量反应了原始数据方差变化程度的不同方向，特征值为数据在对应方向上的方差大小。所以，最大特征值对应的特征向量为数据方差最大的方向，最小特征值对应的特征向量为数据方差最小的方向。原始数据在不...

Dec

15

数据可视化的适用范围

关于数据可视化的适用范围，存在着不同的划分方法。一个常见的关注焦点就是信息的呈现。迈克尔·弗兰德利(2008)，提出了数据可视化的两个主要的组成部分：统计图形和主题图。《Data Visualization: Modern Approach...

Dec

15

数据展现的方式

一般情况下，数据是通过表格和图形的方式来呈现的。常用的数据图表包括饼图、柱形图、条形图、折线图、散点图、雷达图等，当然可以对这些图表进一步整理加工，使之变为我们所需要的图形，例如金字塔图、矩阵图、漏斗图、帕雷托图等。大多数情况下，人们更愿意...

Dec

15

异常值检测——基于分类的方法

OneClassSVMSVM（支持向量机）是一种用于检测异常的有效的技术。SVM通常与监督学习相关联，是一类对数据进行二元分类的广义线性分类器，其决策边界是对学习样本求解的最大边距超平面。但是存在可以用于将异常识别为无监督问题（其中训练数据...

Dec

15

什么是数据可视化

数据可视化主要旨在借助于图形化手段，清晰有效地传达与沟通信息。但是，这并不就意味着数据可视化就一定因为要实现其功能用途而令人感到枯燥乏味，或者是为了看上去绚丽多彩而显得极端复杂。为了有效地传达思想概念，美学形式与功能需要齐头并进，通过直观地...

Dec

15

如何撰写数据分析报告

一份好的数据分析报告，首先需要有一个好的分析框架，并且图文并茂，层次明晰，能够让阅读者一目了然。结构清晰、主次分明可以使阅读者正确理解报告内容；图文并茂，可以令数据更加生动活泼，提高视觉冲击力，有助于阅读者更形象、直观地看清楚问题和结论，从...