Dec 15 数据分析工具——Python Python语言其实是诞生于1990年。Python主要是被运用于面向对象编程(OOP)及结构化编程。相较于其它编程语言,Python有着易上手,使用范围广和高灵活性的优点。通过import句法,Python可以轻而易举的调取例如Panda... 查看详情>>
Dec 15 云计算的产生背景 互联网自1960年开始兴起,主要用于军方、大型企业等之间的纯文字电子邮件或新闻集群组服务。直到1990年才开始进入普通家庭,随着web网站与电子商务的发展,网络已经成为了目前人们离不开的生活必需品之一。云计算这个概念首次在2006年8月的搜... 查看详情>>
Dec 15 什么是漏斗分析 漏斗分析法从字面上理解就是用类似漏斗的框架对事物进行分析的一种方法,这种方法能对研究对象在“穿越漏斗”时的状态特征进行时序类、流程式的刻画与分析。漏斗分析涉及四个方面的要素:时间、节点、研究对象、指标。时间指的是事件是何时开始、何时结束的,... 查看详情>>
Dec 15 数据分析工具——R R语言是诞生于1997年的一门编程语言。虽然早早就已经诞生,但R语言在近些年仍然饱受大量的数据科学家,华尔街金融专家和软件开发者不可或缺的工具。有调查表明,R的使用者已经超过200万人,并且R是数据科学行业最受欢迎的编程语言。R的优点在于它... 查看详情>>
Dec 15 什么是脏数据 在数据库技术中,脏数据在临时更新(脏读)中产生。事务A更新了某个数据项X,但是由于某种原因,事务A出现了问题,于是要把A回滚。但是在回滚之前,另一个事务B读取了数据项X的值(A更新后),A回滚了事务,数据项恢复了原值。事务B读取的就是数据项... 查看详情>>
Dec 15 什么是聚类分析法 聚类分析是指将一组数据对象分组到由相似对象组成的多个类中的分析过程。聚类分析可以应用于数据预处理过程。对于结构复杂的多维数据,可以利用聚类分析对数据进行聚合,从而对结构复杂的数据进行标准化。聚类分析还可以用来发现数据项之间的依赖关系,从而去... 查看详情>>
Dec 15 数据分析工具——SQL SQL是Structured Query Language的缩写,亦称为结构化查询语言。SQL常常用于存取数据以及管理数据库系统。使用SQL可以调取,更新,清理,数据,其亦可以完成数据可视化作图。相较于其它语言,SQL的优势主要体现在它的效... 查看详情>>
Dec 15 数据清洗的主要类型 残缺数据这一类数据主要是一些应该有的信息缺失,如供应商的名称、分公司的名称、客户的区域信息缺失、业务系统中主表与明细表不能匹配等。对于这一类数据过滤出来,按缺失的内容分别写入不同Excel文件向客户提交,要求在规定的时间内补全。补全后才写入... 查看详情>>
Dec 15 什么是假设检验 假设检验(hypothesis testing),又称统计假设检验,是用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。显著性检验是假设检验中最常用的一种方法,也是一种最基本的统计推断形式,其基本原理是先对... 查看详情>>
Dec 15 Python 二分查找 二分搜索是一种在有序数组中查找某一特定元素的搜索算法。搜索过程从数组的中间元素开始,如果中间元素正好是要查找的元素,则搜索过程结束;如果某一特定元素大于或者小于中间元素,则在数组大于或小于中间元素的那一半中查找,而且跟开始一样从中间元素开始... 查看详情>>
Dec 15 什么是数据清洗 数据清洗– 对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。... 查看详情>>
Dec 15 什么是回归分析 在统计学中,回归分析(regression analysis)指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。回归分析按照涉及的变量的多少,分为一元回归和多元回归分析;按照因变量的多少,可分为简单回归分析和多重回归分析;... 查看详情>>
Dec 15 如何展示数据科学的价值 首先需要做的是,证明你可以完成一些任务,然后证明你可以创造一些东西。在你学会如何创造东西以后,你还需要学会如何讲故事,这样才能告诉大家你为什么想要做这个东西。 查看详情>>
Dec 15 数据清洗方法 一般来说,数据清理是将数据库精简以除去重复记录,并使剩余部分转换成标准可接收格式的过程。数据清理标准模型是将数据输入到数据清理处理器,通过一系列步骤“ 清理”数据,然后以期望的格式输出清理过的数据。数据清理从数据的准确性、完整性、一致性、惟... 查看详情>>
Dec 15 什么是网络爬虫 网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。其目的一般为编纂网络索引。网络搜索引擎等站点通过爬虫软件更新自身的网站内容或其对其他网站的索引。网... 查看详情>>
Dec 15 Python 十进制转二进制、八进制、十六进制 Python 十进制转二进制、八进制、十六进制# -*- coding: UTF-8 -*-# Filename : test.py# author by : www.runoob.com# 获取用户输入十进制数dec = int(inpu... 查看详情>>
Dec 15 R语言的功能 R是一套完整的数据处理、计算和制图软件系统。其功能包括:数据存储和处理系统;数组运算工具(其向量、矩阵运算方面功能尤其强大);完整连贯的统计分析工具;优秀的统计制图功能;简便而强大的编程语言:可操纵数据的输入和输出,可实现分支、循环,用户可... 查看详情>>
Dec 15 什么是通用网络爬虫 通用网络爬虫又称全网爬虫(Scalable Web Crawler),爬行对象从一些种子 URL 扩充到整个 Web,主要为门户站点搜索引擎和大型 Web 服务提供商采集数据。 由于商业原因,它们的技术细节很少公布出来。 这类网络爬虫的爬行... 查看详情>>
Dec 15 斐波那契数列 斐波那契数列指的是这样一个数列 0, 1, 1, 2, 3, 5, 8, 13,特别指出:第0项是0,第1项是第一个1。从第三项开始,每一项都等于前两项之和。Python 实现斐波那契数列代码如下:# -*- coding: UTF-8 -... 查看详情>>
Dec 15 R语言的特点 R作为一种统计分析软件,是集统计分析与图形显示于一体的。它可以运行于UNIX,Windows和Macintosh的操作系统上,而且嵌入了一个非常方便实用的帮助系统,相比于其他统计分析软件,R还有以下特点:1.R是自由软件。这意味着它是完全免... 查看详情>>