数据分析必备——统计学入门基础知识_技术分析

要做好数据分析，除了自身技术硬以及数据思维灵活外，还得学会必备的统计学基础知识！

因此数据分析与统计重点，统计学是数据分析必须掌握的基础知识，即通过搜索、整理、分析、描述数据等手段，以达到推断所测对象的本质，甚至预测对象未来的一门综合性科学。

统计学用到了大量的数学及其它学科的专业知识，其应用范围几乎覆盖了社会科学和自然科学的各个领域，而在数据量极大的互联网领域也不例外；因此扎实的统计学基础是一个优秀的数据人必备的技能。

但是，统计学的知识包括了图形信息化、数据的集中趋势、概率计算、排列组合、连续型概率分布、离散型概率分布、假设检验、相关和回归等知识；对于具体的知识点，本文就不一一介绍了，感兴趣的同学请参考《深入浅出统计学》、《统计学：从数据到结论》等等专业书籍。

统计学分为描述性统计学和推断性统计学。

一、描述性统计

定义：使用特定的数字或图表来体现数据的集中程度和离散程度。

1. 集中趋势

集中趋势集中趋势是指一组数据所趋向的中心数值，用到的指标有：算数均数、几何均数、中位数。

2. 离散趋势

离散趋势是反映数据的变异程度，常用指标有极差、四分位间距、方差与标准差、变异系数。

例如箱线图就可以很好反映其中部分重点统计值：

3. 抽样方法和中心极限定理

抽样方法：

我们在做产品检验的时候数据分析与统计重点，不可能把所有的产品都打开检验一遍看是否合格，我们只能从全部的产品中抽取部分样本进行检验，依据样本的质量估算整体的产品质量，这个就是抽样，抽样的定义是为了检验整体从整体中抽离部分样本进行检测，以样本的检测结果进行整体质量的估算的方法。

抽样有多种方法，针对不同的目的和场景，需要运用不同的方法进行检测，常见的抽样方法有：

1）概率抽样

2）非概率抽样

3）两者抽样方法之间的比较：

4）中心极限定理：

若给定样本量的所有样本来自任意整体，则样本均值的抽样分布近似服从正态分布，且样本量越大，近似性越强。

以30为界限，当样本量大于30的时候符合中心极限定理，样本服从正态分布；当样本量小于30的时候，总体近似正态分布时，此时样本服从t分布。样本的分布形态决定了我们在假设检验中采用什么方法去检验它。

二、推断性统计

定义：根据样本数据推断总体的数据特征。

1. 基本步骤

产品质检的时候用的几乎都是抽样方法的推断性统计，推断性的过程就是一种假设检验，在做推断性统计的时候我们需要明确几点：

明确后可以对应我们假设检验的几个步骤了：

假设对于某一个器件，国家标准要求：平均值要低于20。

某公司制造出10个器件，相关数值如下：15.6、16.2、22.5、20.5、16.4、19.4、16.6、17.9、12.7、13.9。

运用假设检验判断该公司器件是否符合国家标准：

1）设假设：

2）总体为正态分布，方差未知，样本为小样本，因此采用T检验。

3）计算检验统计量：样本平均值17.17，样本标准差2.98，检验统计量为（17.17-20）/（2.98/√10）-3.0031

4）当置信度选择97.5，自由度为9，此时为单尾检验，临界值为2.262。

5）由于-3.0031lt;-2.262，拒绝原假设，因此接受备择假设，该器件满足国家标准。

2. 假设检验类型3. 统计检验方法

Z检验：一般用于大样本（即样本容量大于30）平均值差异性检验的方法。它是用标准正态分布的理论来推断差异发生的概率，从而比较两个平均数gt;平均数的差异是否显著。

T检验：用于样本含量较小（例如nlt;30），总体标准差σ未知的正态分布样本。

F检验：F检验又叫方差齐性检验。在两样本t检验中要用到F检验。检验两个样本的方差是否有显著性差异这是选择何种T检验（等方差双样本检验，异方差双样本检验）的前提条件。

（T检验用来检测数据的准确度，检测系统误差；F检验用来检测数据的精密度，检测偶然误差。）

卡方检验：主要用于检验两个或两个以上样本率或构成比之间差别的显著性，也可检验两类事物之间是否存在一定的关系。

4. 双尾检测和单尾检测

这个和我们提出的原假设相关，例如我们检测

试看结束，如继续查看请付费↓↓↓↓

打赏0.5元才能查看本内容，立即打赏

来源【首席数据官】，更多内容/合作请关注「辉声辉语」公众号，送10G营销资料！

数据分析必备——统计学入门基础知识