数据分析必掌握的统计学知识,为什么数据分析师要学统计学

此文是《10周入门数据分析》系列的第7篇
想了解学习路线,可以先阅读学习计划 | 10周入门数据分析
统计学是数据分析的基石 。学了统计学,你会发现很多时候的分析并不靠谱 。比如很多人都喜欢用平均数去分析一个事物的结果,但是这往往是粗糙的,不准确的 。如果学了统计学,那么我们就能以更多更科学的角度看待数据 。
大部分的数据分析,都会用到统计方面的以下知识,可以重点学习:
基本的统计量:均值、中位数、众数、方差、标准差、百分位数等
概率分布:几何分布、二项分布、泊松分布、正态分布等
总体和样本:了解基本概念,抽样的概念
置信区间与假设检验:如何进行验证分析
相关性与回归分析:一般数据分析的基本模型
通过基本的统计量,你可以进行更多元化的可视化,以实现更加精细化的数据分析 。这个时候也需要你去了解更多的Excel函数来实现基本的计算,或者python、R里面一些对应的可视化方法 。
有了总体和样本的概念,你就知道在面对大规模数据的时候,怎样去进行抽样分析 。
你也可以应用假设检验的方法,对一些感性的假设做出更加精确地检验 。
利用回归分析的方法,你可以对未来的一些数据、缺失的数据做基本的预测 。
了解统计学的原理之后,你不一定能够通过工具实现,那么你需要去对应的找网上找相关的实现方法,也可以看书 。先推荐一本非常简单的:吴喜之-《统计学·从数据到结论》 。也可以看《商务与经济统计》,结合业务能更容易理解 。
另外,如何精力允许,请掌握一些主流算法的原理,比如线性回归、逻辑回归、决策树、神经网络、关联分析、聚类、协同过滤、随机森林 。再深入一点,还可以掌握文本分析、深度学习、图像识别等相关的算法 。关于这些算法,不仅需要了解其原理,你最好可以流畅地阐述出来,还需要你知晓其在各行业的一些应用场景 。如果现阶段不是工作刚需,可不作为重点 。
本文算是一个知识点汇总,不做细致展开,让大家了解统计学有哪几大块,每一类分别用于什么样的分析场景 。后面几篇会以实际案例的方式,细致讲讲描述性统计、概率分布等 。
知识点汇总:
1.集中趋势
2.变异性
3.归一化
4.正态分布
5.抽样分布
6.估计
7.假设检验
8.T检验
一、集中趋势
1.众数
出现频率最高的数;
2.中位数
把样本值排序,分布在最中间的值;
样本总数为奇数时,中位数为第(n+1)/2个值;
样本总数为偶数时,中位数是第n/2个,第(n/2)+1个值的平均数;
3.平均数
所有数的总和除以样本数量;
现在大家接触最多的概念应该是平均数,但有时候,平均数会因为某些极值的出现收到很大影响 。举个小例子,你们班有20人,大家收入差不多,19人都是5000左右,但是有1个同学创业成功了,年入1个亿,这时候统计你们班同学收入的“平均数”就是500万了,这也很好的解释了,每年各地的平均收入数据出炉,小伙伴们直呼给祖国拖后腿了,那是因为大家收入被平均了,此时,“中位数”更能合理的反映真实的情况;
二、变异性
1.四分位数
上面说到了“中位数”,把样本分成了2部分,再找个这2部分各自的“中位数”,也就把样本分为了4个部分,其中1/4处的值记为Q1,2/4处的值记为Q2,3/4处的值记为Q3
2.四分位距 IQR=Q3-Q1

数据分析必掌握的统计学知识,为什么数据分析师要学统计学

文章插图
3.异常值

推荐阅读