百度《数据分析之道》目录:
内容摘要:
1)数据分析是什么?
2)什么是做好数据分析的关键?
数据分析 之道
数据分析是什么?
字面拆解: 数据 + 分析
有骨有肉方成一个人
–分析是骨架(主)
–数据是血肉(附)
常见错误
–只有数据:机器报表不行么?
–只有分析:你是瞎猜的吧?
什么是做好数据分析的关键?
数据分析的核心:思路 > 方法
–思路:业务调研+逻辑思考+创新灵感+可行建议
–方法:汇总统计,Make it Simple(切忌喧兵夺主)
数据分析的价值与定位
–百度的T序列不重视数据分析(数据分析的能力难以评价)
–麦肯锡一个分析报告卖了上千万(仅有简单统计)
–数据分析对一个企业有巨大价值,作用于业务发展的前(探索)期或阶段性改进期(颠覆创新),先有数据分析,才能定业务模型,再后是建模优化(机器学习)
数据分析人才
–同样的数据,仁者见仁智者见智,分析人才的不可复制性
–做好数据分析的人不一定能当老大,但至少能当军师
分析要思考业务,尤其要接地气
数据分析要轻方法,重调研
–方法上,基本统计即可
–调研上,亲临一线去询问、了解实际情况,切近“数据空想”
–只有熟悉业务,才能提供有价值的分析和建议
客户流失仅仅是推广效果不够理想吗?
分析要言之有物,行之有效
数据分析,我们真的是仅仅想分析么? 价值
–分析报告的及格线是“言之有物” --- 事实
–优秀线是“振聋发聩”或“醍醐灌顶” --- 分析
–满分线是产生了切实有效的行动方案 --- 建议
分析实例:我们处于市场领先地位,针对次位的竞争对手近期发展进行数据分析
–及格线:竞争对手发展势头很猛,市场份额怎样变化
–优秀线:虽然竞争对手近期势头发展很猛,但实际上他突出的优势在X,劣势在Y,未来可能会采取什么行动,同时市场上的其它竞争对手也不容忽视
–满分线:针对于竞争对手的可能动作,我们有如下方面需要改进:加强优势A、B、C,与X达成进一步战略合作关系,并收购Y等等
汇总统计
起源:用单个数或者数的小集合捕获可能很大值集的各种特征
–频率度量:众数
–位置度量:均值和中位数
–散度度量:极差和方差
–数据分布:频率表、直方图
–多元汇总统计:相关矩阵、协方差矩阵
汇总数据指标的设计,源于非常朴素的思想
标准差:想设计一个指标,可以用来衡量数据集合的发散性,经过如下思考
–每个样本的偏差累加就可以衡量 (real num - mean)加和
–偏差较大的值应该具有更大的权重 (real num - mean)^2
–集合中数字越多,方差越大,应该与集合大小无关 Mean((real num - mean)^2)
–量纲与原始数据不同林彪 数据分析,无法比 Sqrt(Mean((real num - mean)^2))
–最终结果,RMSE
汇总统计 --- 需要多少样本
在美国总统选举的各种民意测验中林彪 数据分析,关于支持率的一个常用标准是置信度为95%(误差在+-2.5%以内,置信区间宽度为5%),那么要达到这样的标准需要多少人呢?
计算出N=1067,至少要一千个样本以上,才能满足需求
–Z0.025=1.96, 通过R语句 qnorm(0.025, low=F)得到
–n是样本数量,n越大,置信区间越小
–p是真实的概率,p=0.5时候,p(1-p)最小,所需n最大
汇总统计 --- 细拆与汇总的权衡
在数据量充足的时候,加一些维度、拆的更细,使得每个小格里的样本更加类似,结论更加准确但数据不足或分拆未带来结论改变,就不能再拆,以免结果失去统计意义。
OLAP 概念 --- 汇总统计的极致工具
机器学习 --- 模型为什么work?
为什么存在实例“毛泽东抽烟比林彪不抽烟活的久”,还要劝人不要抽烟?
–概率分布问题,“人事”与“天命”
–虽然选择健康的生活方式(尽人事),我们也得听天命(自己是正态曲线的好尾巴,还是坏尾巴),但是天命整体分布可以变得更好(正态曲线的中轴向好的一面偏移)
如果没有附加的抽烟信息,如何从一组寿龄数据中作预测?
–目标:MSE做为评价指标,MSE越小越好
–方法:数据为正态分布的话,中位数(即波峰)做为预测值使得MSE最小
通过如上两点,证明抽烟信息对预测是有效的,如果一个人抽烟,那么我们预测他活到70岁,否则75岁
如果再多一个酗酒的信息呢?
精心挑选的平均数
实例:小区业主申请减税 vs 卖房子
当数据分布呈现正态分布特点(钟形的曲线)时,均值、中位数、众数都落在相同的点上。而数据分布成有偏差的特征(类似于滑梯)时,那么均值、众数、中位数就相差甚远了。
以书思今,学以致用
–分布与平均数一样重要
–两个特例往往使得数据的统计结果产生很大的变化
无所不能的图形
同样一份数据,2010年的前6个月,使用产品的客户数量由最初的2w,以每个月100个的速度增长。
缺失或不匹配的比较
实例1(缺失的比较)
–临床显示,本药品在10分钟内可以杀死5w个感冒病毒
–数据因为缺失了比较对象,而毫无意义
实例2(不匹配的比较)
–美国海军的死亡率是0.9%, 而同时期纽约市民的死亡率是1.6%,得出结论参军是很安全的。
–比较对象不明确、或者根本不可比,也是常见的
以书思今,学以致用
–为什么评估策略效果要有对照组?
偏差的抽样
实例
–10个硬币抛1000次
来源【首席数据官】,更多内容/合作请关注「辉声辉语」公众号,送10G营销资料!
版权声明:本文内容来源互联网整理,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 jkhui22@126.com举报,一经查实,本站将立刻删除。