通识教育 - 智享数据科学资源平台

Dec

15

Gamma 分布（连续型）

Gamma 分布是统计学中的常见连续型分布，指数分布、卡方分布和 Erlang 分布都是它的特例。如果 Gamma(a,1) / Gamma(a,1) + Gamma(b,1)，那么 Gamma 分布就等价于 Beta(a, b) 分布。

Dec

15

什么是数据质量

数据质量，是指在业务环境下，数据符合数据消费者的使用目的，能满足业务场景具体需求的程度。在不同的业务场景中，数据消费者对数据质量的需要不尽相同，有些人主要关注数据的准确性和一致性，另外一些人则关注数据的实时性和相关性。因此，只要数据能满足使...

Dec

15

指数分布（连续型）

指数分布可以用来表示独立随机事件发生的时间间隔，比如旅客进入机场的时间间隔、打进客服中心电话的时间间隔等等。当 alpha 等于 1 时，指数分布就是 Gamma 分布的特例。

Dec

15

什么是数据质量管理

数据质量管理（Data Quality Management），是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题，进行识别、度量、监控、预警等一系列管理活动，并通过改善和提高组织的管理水平使...

Dec

15

高斯分布（连续型）

高斯分布或正态分布是最为重要的分布之一，它广泛应用于整个机器学习的模型中。例如，我们的权重用高斯分布初始化、我们的隐藏向量用高斯分布进行归一化等等。

Dec

15

什么是数据集成

在企业中，由于开发时间或开发部门的不同，往往有多个异构的、运行在不同的软硬件平台上的信息系统同时运行，这些系统的数据源彼此独立、相互封闭，使得数据难以在系统之间交流、共享和融合，从而形成了"信息孤岛"。随着信息化应用的不...

Dec

15

卡方分布（连续型）

简单而言，卡方分布（Chi-squared）可以理解为，k 个独立的标准正态分布变量的平方和服从自由度为 k 的卡方分布。卡方分布是一种特殊的伽玛分布，是统计推断中应用最为广泛的概率分布之一，例如假设检验和置信区间的计算。

Dec

15

数据集成的模式有哪些

数据集成有三种模式，分别是联邦数据库系统、中间件模式和数据仓库模式。联邦数据库系统(FDBS)由半自治数据库系统构成，相互之间分享数据，联盟各数据源之间相互提供访问接口，同时联盟数据库系统可以是集中数据库系统或分布式数据库系统及其他联邦式系...

Dec

15

学生t-分布

学生 t-分布（Student t-distribution）用于根据小样本来估计呈正态分布且变异数未知的总体，其平均值是多少。t 分布也是对称的倒钟型分布，就如同正态分布一样，但它的长尾占比更多，这意味着 t 分布更容易产生远离均值的样本...

Dec

15

什么是有监督学习

有监督学习是从标签化训练数据集中推断出函数的机器学习任务。训练数据由一组训练实例组成。在监督学习中，每一个例子都是一对由一个输入对象（通常是一个向量）和一个期望的输出值（也被称为监督信号）。有监督学习算法分析训练数据，并产生一个推断的功能，...

Dec

15

什么是人工神经元

人工神经元是一个数学函数视为一个模型生物的神经元，一个神经网络。人工神经元是人工神经网络中的基本单元。人工神经元接收一个或多个输入(代表神经树突处的兴奋性突触后电位和抑制性突触后电位)并将它们相加以产生输出(或激活，代表沿其轴突传递的神经元...

Dec

15

什么是无监督学习

现实生活中常常会有这样的问题：缺乏足够的先验知识，因此难以人工标注类别或进行人工类别标注的成本太高。很自然地，我们希望计算机能代我们完成这些工作，或至少提供一些帮助。根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题，称之为无监督...

Dec

15

数据科学词典——你需要知道的关键术语

人工智能聊天机器人——人工智能聊天机器人代表了一类软件，它能够通过消息传递应用程序以自然语言模拟用户对话。该技术的主要吸引力在于它通过在您的网站上提供 24/7 全天候可用来提高用户响应率，以提供更好的客户满意度。聊天机器人使用机器学习和自...

Dec

15

什么是半监督学习

半监督学习(Semi-Supervised Learning，SSL)是模式识别和机器学习领域研究的重点问题，是监督学习与无监督学习相结合的一种学习方法。半监督学习使用大量的未标记数据，以及同时使用标记数据，来进行模式识别工作。当使用半监督...

Dec

15

什么是遗传算法

遗传算法是计算数学中用于解决最佳化的搜索算法，是进化算法的一种。进化算法最初是借鉴了进化生物学中的一些现象而发展起来的，这些现象包括遗传、突变、自然选择以及杂交等。遗传算法通常实现方式为一种计算机模拟。对于一个最优化问题，一定数量的候选解(...

Dec

15

什么是决策树

决策树(Decision Tree）是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干，故...

Dec

15

微指数

微指数是新浪微博的数据分析工具，是基于微博的热点内容搜索生成的关键词指数及实时数据。这款工具通过关键词的热议度，以及行业、类别的平均影响力，来反映微博舆情的发展走势。微指数分为影响力指数和热词指数两个模块，另外还可以查看各类账号或者热议人群...

Dec

15

什么是k均值聚类算法

k均值聚类算法（k-means clustering algorithm）是一种迭代求解的聚类分析算法，其步骤是，预将数据分为K组，则随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最...

Dec

15

百度指数

大家都知道有什么不懂就去问百度，这为百度提供了海量的数据。百度指数是以百度网民行为数据为基础的数据分享平台，是目前国内互联网最重要的统计分析平台之一，很多企业甚至会把百度指数的大数据当做营销决策的依据。通过百度指数，不仅能知道某个关键词在百...

Dec

15

什么是支持向量机

支持向量机（Support Vector Machine, SVM）是一类按监督学习（supervised learning）方式对数据进行二元分类的广义线性分类器（generalized linear classifier），其决策边界是...