“接着上一篇的内容,这篇主要讲在PPT中提到的几种分析方法以及每种方法的实现方式”
0、简述
在我们做数据分析或者数据挖掘时肯定要借助一些分析方法来得到我们想要的结果埃森哲 大数据 场景,我们根据PPT的内容主要介绍几种主要的分析方法,具体内容:
1.1 分类与回归
1.2聚类分析
1.3 关联分析
1.4 时序模型
1.5 遗传算法
2 数据分析工具
每一种分析方法都有整理好的案例介绍(在传送链接里,附python实现代码),先马后看。
1、分析方法
提起数据分析,大家往往会联想到一些密密麻麻的数字表格,或是高级的数据建模手法,再或是华丽的数据报表。其实,“ 分析 ”是每个人都具备的能力;比如预订酒店时,我们会比对多家的价格,地理位置等信息后做出最终选择。
这些小型决策,其实都是依照我们脑海中的数据点作出判断,这就是简单分析的过程。 对于分析师来说,则需要掌握一套系统的、科学的、符合商业规律的数据分析知识。
几种主要的分析方法汇总如下:
种类
功能
算法
典型应用
分类
回归
分类
决策树、神经网络分类、区别分析、逻辑回归、概率回归
风险分析、客户挽留分析、欺诈探测
回归
线性回归、非线性回归
收益率分析,收入预测,信用价值预测,客户潜在价值预测
聚类
集群分析
K-平均值,神经网络聚类
客户分割
关联
规则
关联分析
统计学,集合理论
交叉销售。捆绑销售
序列关联分析
统计学,集合理论
交叉销售
相似时间序列分析
统计学,集合理论
产品生命周期
时序
模型
时间序列预测
统计时间序列模型、神经网络
销售预测、利率预测、损失预测
1.1、分类与回归
分类模型和回归模型本质一样,分类模型是将回归模型的输出离散化。
"talk is cheap, show you the code"
一定不能少的三个模型:
逻辑回归,决策树,支持向量机
逻辑回归
Logistic 回归算法基于 Sigmoid 函数,或者说Sigmoid 就是逻辑回归函数。
其函数曲线如下:
逻辑回归(Logistic Regression)是一种用于解决二分类(0 or 1)问题的机器学习方法,用于估计某种事物的可能性。比如某信用卡用户发生逾期的可能性。
决策树
决策树对于单调的特征变换是”indifferent”的,也就是说特征的单调变换对于决策树来说不会产生任何影响.优势:
支持向量机
SVM最大的好处就是它只依赖于处于分类边界的样本来构建分类面,可以处理非线性的特征,优势:
逻辑回归,决策树,支持向量机三个模型的详细介绍:
1.2、聚类分析
聚类分析的一个重要用途就是针对目标群体进行多指标的群体划分,类似这种目标群体的分类就是精细化经营,个性化运营的基础和核心,只有进行了正确的分类,才可以有效进行个性化和精细化的运营,服务及产品支持等。
聚类分析是一种定量方法,从数据分析的角度看,它是对多个样本进行定量分析的多元统计分析方法,可以分为两种:
对样本进行分类称为Q型聚类分析
对指标进行分类称为R型聚类分析
从数据挖掘的角度看,又可以大致分为四种:
无论是从那个角度看,其基本原则都是:
最小化簇间的相似性,最大化簇内的相似性。
常见业务应用场景如下
下面这篇文章对这些都有非常详细的解释:
1.3、关联分析
关联分析又称关联挖掘,就是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。
简单说就是找出事件间的联系或依赖,通过关联分析找出数据集合中隐藏的关系网络,例如大家都听过的啤酒和尿布的故事。
关联分析几个常见的场景:
关于关联分析分享一篇数据派的文章,里面有很详细的介绍:
1.4、时序模型
时序分析是以分析时间序列的发展过程、方向和趋势,预测将来时域可能达到的目标的方法。此方法运用概率统计中时间序列分析原理和技术,利用时序系统的数据相关性,建立相应的数学模型,描述系统的时序状态,以预测未来。
来源【首席数据官】,更多内容/合作请关注「辉声辉语」公众号,送10G营销资料!
版权声明:本文内容来源互联网整理,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 jkhui22@126.com举报,一经查实,本站将立刻删除。