1.大数据及其分析
IBM每天的约产生2.5艾数据,单位换算:1艾=1024*1024TB
客户终身价值:CLV, customer lifetime value.
分析过程模型:第一步:全面清晰地定义所需解决的业务问题;第二步:调研企业内外部的源数据;第三步:数据清洗;第四步:数据转换;第五步:建模;第六步:模型结果解释和评估;最后一步:模型的输出结果简单便捷地输入到其他系统 。
分析建模中的任务及角色:DBA,业务专家,法律专家,数据科学家,软件工具供应商。
分析模型的要求:第一:业务相关性;第二:模型应具有统计学意义和预测力;第三:模型结果的可解释性和合理性;第四:分析模型必须兼顾运行效率;第五:经济成本;最后:遵守法律法规。
2.数据采集、抽样和预处理
分析项目启动前,尽可能列出有潜在价值的所有数据源,基本原则是数据越多越好。
垃圾进垃圾出原理(GIGO)
数据源的类型:第一:交易记录;第二:文本文件;第三:定性信息、专家观点;第四:大量可公开获得的数据。
数据抽样:为什么要抽样?抽样应尽可能避免偏差。进门人群(TTD, Through-The-Door):所有来到银行且申请抵押贷款的客户。
数据类型:数据元素的不同类型(连续、离散变量),常见的变量类型:连续变量(变量的取值落在某个区间,这个区间可能有上下限,也可能无上下限),分类变量(无序分类变量:其取值只能在一个有意义的序列中选取,不同取值无顺序或程度上的差别;定序分类变量:取值只能在一个有意义的序列中选取,不同取值有顺序或程度上的区别;二元分类变量:分类结果只有两个取值,如性别,雇佣状态等)。
数据可视化及探索性统计分析:用各类图表。在数据可视化分析之后,进行基本的统计分析:如计算方差,平均值,标准偏差,最大、最小值,百分位数和置信区间等,以挖掘有趣的特征模式。
缺失值的处理:替代估值法,剔除缺失值,维持不变(缺失值可能是有意义的)。
异常值的检测及处理:异常值有两种类型:有效的异常值,无效的异常值;可通过可视化或计算最大最小值来检测异常值;可基于业务常识或专家经验设定有效值的上下限。
数据标准化:数据标准化是一种数据预处理活动,目标是把不同性质、不同量纲的变量进行指数化处理,调整到可类比的范围。在以回归为方法的模型方法中,数据标准化特别有效,但不是所有模型技术都需要做数据标准化处理,如决策树模型就不需要对数据进行标准化处理。
粗分类处理:归类的方法有很多,最常用语的是等间距分类和等频数分类。
非单调性与单调性相对应,如果y=f(x)在某个区间是增函数或减函数,就称函数在这一区间具有严格的单调性,这一区间叫做y=f(x)的单调区间。函数的单调性也叫函数的增减性。
卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,卡方值越大,越不符合,偏差越小卡方值就越小,越趋于符合,若量值完全相等时,卡主值为0,表明理论值完全符合。
WOE(weights of evidence)值的计算:引入了WOE变量简化模型,降低了模型的可解释性。
变量的选择:有意义的变量通常只有10-15个,称为聪明变量,过滤器方法是一种常用的变量选择机制,其原理是测量每个变量(单变量)与目标变量的相关性。
细分:很多时候,在正式建模前,需要把数据分成不同的子集,也就是细分客户群。可能是从战略需要考虑或者是出于从可持续运营的角度考虑。现在模型不适用于新客户,所以需要为新客户单独建模。细分也可能是出于某些重要变量的作用。如某个变量与多个变量均有极强的相关性,这个变量可能就是细分客户群的聪明变量。
细分可以根据专家经验也可基于统计分析技术,如决策的树,k-means聚类算法或自组织映射算法。
细分是一种非常有效的数据预处理方法,企业通常针对不同细分的客户群采用不同的业务策略,因此不同客户群适用的模型技术也有差异。但细分后,分析模型数量会增加,将会明显增加建模,模型监控及运维总成本。
3.预测分析
有两三类预测分析模型:回归(目标变量通常是连续型)和预测(目标变量通常是分类变量)。
定义目标变量:目标变量在模型的学习/训练过程中起着重要作用。
线性回归:是一种适用于连续型目标变量的最基本的建模技术。
Logistic回归模型。
穆迪风险(穆迪评级):一种证券评级制度,为投资者提供一个简单的等级系统大数据的应用场景,从而了解有关证券的相对来说信用质量等级。
决策树:决策树是一种递归分割算法(RPAs), 以树状结构来表示基础数据集中隐藏的各种模式。决策树是一种预测模型,代表的是对象属性与对象值之间的某种映射关系。树中的每个节点均表示某个对象属性,最上面的节点是根节点,每个分叉路径则代表着某个可能的属性值,位于末稍的终止节点称为叶节点,对应从根节点到该叶节点所经历的路径所表示的对象值。
常用的构建决策树算法:C4.5算法,分类回归树算法(CART算法),卡方自动交互检测算法(CHAID)。
构建决策的树时的3个关键点:第一:分裂决策(用什么变量什么值来做分裂),第二:停止分裂的决策(分裂到什么时候,这棵树什么时候停止生长),第三:确定类别的决策(叶节点的类别是什么(如好客户,坏客户))。
决策树的目标是实现叶节点的杂质最小化。
量化计算杂质指数的常用三种方法:A:熵值(C4.5模型);B:Gini值(CART模型);C:卡方分析(CHAID模型)。
建立分类树的方法也可用于停止分裂的决策。
神经网络:位于中间的处理元件(或神经元)执行两个基本操作(把输入变量乘以各自的权重,并加上截距(在神经网络中称为偏离量),然后再用类似Logistic回归分析方法中的转换方法,进行非线性变换。所以在神经网络中,Logistic回归模型就是神经元。同样地,线性回归用转换函数f(z)=z进行转换后也可以作为神经元)
多层神经网络(MLP):很多多层神经网络有一个输入层,一个隐含层,一个输出层。隐含层使用了非线性转换函数,输出层使用了线性转换函数,转换函数也称为激活函数,最常用的激活函数有:Logistic函数,双曲正切函数,线性函数。
神经网络算法程序比较有效的方法步骤:第一:把数据集拆分为各自独立的没有重复样本的训练集、验证集和测试集;第二:在第一步或更多的训练步骤中尝试调整隐含神经元的数量(一般是从一个神经元开始,慢慢增加到10个为止);第三:利用训练集得到神经网络模型,利用验证集来评估模型性能(在处理局部极值问题时,可能需要训练多个神经网络模型);第四:利用验证集比较隐含神经元个数不同时的性能,找出最优时所对应的隐含神经元的个数;第五:利用测试集再次评估模型性能。
神经网络可用于仿真数据中的各种复杂模型、找出不同复杂决策问题的决策边界,因此功能非常强大。
规则提取旨在用if/then条件分类规则来模仿神经网络的行为。规则提取中蕴含两个技术:分解技术和自学习技术。
分解技术是一种通过侦测变量权重和/或激活值来解析神经网络的内部工作机制的方法。
分解技术代表性的五步法:
第一:训练神经网络,并尽可能修剪掉多余分支/连接。
第二:应用聚类技术对隐含神经元的激活值进行分类。
第三:从隐含神经元激活值的分类结果出发,提取规则并描述神经网络的输出。
第四:从神经网络的输入出发,按隐含神经元的激活值类别提取规则并进行描述。
第五:关联合并第三和第四步的规则,建立神经网络的输入和输出之间的直接关系。
在自学习规则提取技术中,把神经网络视作黑盒子,并把黑盒子的输出结果——预测值,作为白盒分析技术(如决策的树等技术)的输入。
自学习规则提取技术实质是通过仿真数据来扩展和增强训练集,也就是把神经网络的预测值加入数据集中,并打上标签,后续再基于增强后的数据集构建决策树模型时,可以把神经网络的预测值作为决策树的分裂变量。
保真度:即在何种程度上复制了神经网络的结果。
另一种使增强神经网络结果可解释性的方法是两阶段建模。其基本想法是先采用一些易于理解的模型(如线性回归、Logistic回归)进行初步的估计,这步保证结果的可解释性。在第二阶段,在同一个数据集中应用神经网络技术建模,修正第一阶段简单模型的误差。最后把两个模型的结果组合在一起。
支持向量机:神经网络有两个主要缺点:目标函数是非凸函数(因此可能有多个局部极值);需要耗费大量时间调整隐含神经元数目。
?集成算法:集成算法是针对同一个预测目标,采用多种分析技术,建立多个模型,而不是只用一种方法技术建立一个模型。
3种常用集成算法:套袋算法(Bagging),Boosting算法,随机森林算法(在机器学习中,随机森林是一个包含多个决策树的分类器,其输出的分类结果由各棵树(称为基分类器)的输出类别的众数决定)。
多类分类技术(多类Logistic回归,多类决策树,多类神经网络,多类支持向量机)
预测模型的评估:数据集的分割,分类模型的性能评估,回归模型的性能评估(回归模型的性能评估有多种方式,最常用最重要的的指标是R平方)。
4.描述性分析
描述性分析是旨在描述客户的行为模式,相对于预测分析,描述性分析没有实际的目标变量(如,流失或欺诈指示器),因此描述性分析是一种没有目标变量引导的学习过程,所以通常被称为无监督学习。
最常见的三种描述性分析:关联规则(检测某些常见行为模式的内在关系),序列规则(检测事件的发生顺序),聚类(检测相似度高的细分群)。
支持度和置信度是度量关联规则强度的两个关键指标。
分层聚类:分层聚类法就是对给定数据对象的集合进行层次分解,根据分层分解采用的分解策略,分层聚类法又可分为凝聚的和分裂的分层聚类。
K-Means是一种非分层聚类算法。
5.生存分析
生存分析聚焦于将事件的结果(终点事件)和出现这一结果所经历的时间结合起来分析。
生存分析的实践应用领域:预测患者接受治疗后的存活时间,预测客户的流失时间,预测客户下次购买的时间,预测客户违约的时间,预测客户提前偿还贷款的时间大数据的应用场景,预测客户下次访问网站的时间等等。
第一类生存分析是卡普兰.梅尔分析,用于估计不同时间的总体生存率。
参数法生存分析:假设事件的发生时间服从某种分布规律。
比例风险回归模型,生存分析模型的扩展:把随时间而变化的变量纳入模型。
生存分析模型的评估:首要考虑点是模型整体和单个协变量的预测力的统计显著性。
6.社交网络分析
社交网络的现实场景:以超链接方式连接在一起的网页,人与人之间的电子邮件网络,因引用而建立连接关系的论文,通信运营商的客户之间的电话呼叫,通过流动性依赖而连接在一起的银行,疾病在病人之间的传播等等。
社交网络的度量,社交网络的学习,关系邻近分类器,概率关系邻近分类器,关系逻辑回归,共同模式推断,自中心网络,偶图/二分图
7.从分析到生产力
模型的后验测试:是在模型投入运营后,通过比较模型预测值(事前)和真实值之间的差异,来确定当前模型是否还可用,是否需要优化或重新开发。(分类模型的后验测试,回归模型的后验测试,聚类模型的后验测试)
参照管理:把分析模型的输出结果及相关的性能指标与参照/标杆模型进行对比。
数据质量,软件工具,模型相关文档,公司治理。
8.实践与案例
信用风险建模:在信用风险建模中,可以采用多种不同的分析模型技术,第一种模型技术是应用计分卡,这是基于客户的信用程度建立的信用评分模型。这类模型通常取两个时间点的客户拍照信息:申请时间点信息,包括申请人基本信息、征集机构的评分及借贷记录,以及前12或18个月的违约信息。
欺诈检测:有监督学习、无监督学习、社交网络学习都可以用于欺诈检测建模。在有监督学习中,标签数据集中需要有真实的欺诈交易记录。
净响应建模:响应建模重点在于深化和恢复客户关系,通过针对性营销来获取新客户或赢回旧客户。这种类型的营销活动包括直邮、电邮,优惠
来源【首席数据官】,更多内容/合作请关注「辉声辉语」公众号,送10G营销资料!
版权声明:本文内容来源互联网整理,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 jkhui22@126.com举报,一经查实,本站将立刻删除。