客户流失预测数据挖掘方法对 比分析客户流失预测数据挖掘方法对比分析随着市场竞争的加剧,新技术的不断涌现,数据仓库、 数据挖掘技术在客户关系管理的应用日益广泛和深入,其 中客户行为分析、客户满意度评价、客户细分等是数据挖 掘技术在客户关系管理的典型应用。近年来,客户挽留成为 客户关系管理的重要内容,在诸多行业,保持高的客户挽 留率对于公司利润的增长,超过公司规模、市场份额、单 位成本等竞争因素的影响。学术界、企业界提出了以客户 关系管理、关系营销为营销模式数据分析预测方法,以客户需求为核心价值, 采用数据挖掘技术对客户流失行为进行分析建模,以期增 强客户忠诚度、降低客户流失率。 1 客户流失预测常用技术客户流失分析与建模是应用数据挖掘技术新的应用。简言之,预测模型是从数据库中发现模式,用于对未来的预测。客户流失预测模型简单的说就是从客户数据仓库中提取一定量的训练样本,经过预处理后形成训练集,通过数据挖掘方法形成预测模型,通过预测模型对新样本进行分类,预测出客户是否具有流失可能性。学术界开发、应用了基于数据挖掘方法与技术的客户流失预测模型,其中,最常用的有回归分析、决策树和神经网络。近两年,SVM,贝叶斯网络,粗糙集等也被用于客户流失预测建模,取得了不错的效果。
1.1 回归分析回归分析是一种广泛应用的预测技术,回归分析的目的是找出数值型变量间的依赖关系,并通过函数关系表现1出来。回归分析的预测效果仅仅依赖于预测的变量与其他 变量的关系,即模型的精确度取决于自变量和因变量的分 布符合模型的程度,自变量与因变量的分布适合所选取的 模型,则预测效果好,反之,预测效果差。根据自变量和 因变量的函数关系,分为线性回归和非线性回归。客户关 系研究中广泛应用的模型有Linear, Logistic等回归方 程。文献[1]应用Logistic回归对商业银行客户流失进行 了分析预测,并以真实数据对模型进行了校验,结果表明 模型具有良好的预测效果。文献[2]应用Logistic模型研究 了客户生命周期价值及客户流失,研究发现,相比决策树 和神经网络技术而言,Logistic模型更适合对客户流失的 分析和预测,但同时作者也指出,预测性能受诸多参数因 素的影响,比如神经网络参数的设置及训练集的选择,只 能表明他们的训练样本更适合Logistic来建模。文献[3] 指出,回归分析在客户流失预测中的主要缺点是对训练样 本的要求,并且不能以符号化或易于理解的形式直观地表 现隐含的模式。
1.2 决策树决策树是一种流行的分类算法,具有学习快速块、分 类准确率高、分类结果表现直观等特点。决策树的构造包 括两个阶段:通过训练集生成决策树;对生成的决策树进 行剪枝。应用决策树对新样本进行分类时,从树根节点开1始对样本进行测试,根据测试结果确定下一个节点,直至 到达也节点,叶节点所属类别就是新节点的预测类别。决 策树算法有ID3,4.5,C5.0,CART等。由于基于C4.5算法的决策树有良好的性能并且能够自 动产生分类规则,文献[4]应用C4.5算法对保险客户基本信 息进行了分类,分析出了客户流失的特征,通过此模型, 保险公司提高了客户挽留率。Kitayama通过基于决策树的 方法对客户档案进行了分类,首先把客户群体划分为首选 客户(Preferred customers)和一般客户,首选客户指那些 对公司最有价值的客户,接着应用决策树根据客户特征分 类,识别高价值客户,以达到挽留高价值客户的目的。为 了克服决策树固有的缺点,提高客户流失预测模型的精确 度和可解释性,文献[5]结合了AD Tree模型与Logistic回 归方程的优点,提出了TreeLogit模型。 1.3 神经网络神经网络是一组连接的输入/输出单元,其中每个连接 都有一个加权值。
神经网络的分类知识体现在网络连接上, 被隐式地存储在连接的权值中。神经网络的学习过程是通 过跌代运算对权值不断进行调整的过程,学习的目标就是 通过权值的调整使输入元组被正确的标号。典型的神经网 络有Hopfield网络,BP网络,SOM和ART网络。文献[6]通过应用神经网络来识别价值客户,预测将来 的行为,来进行客户关系管理,根据他们的实验结果表明,1相比其他数据挖掘技术,神经网络用于识别价值客户提供 了更有效的预测模式。同时还证明了神经网络具有广泛的 应用领域。然而,神经网络技术的缺点也是不容忽视的, 比如输出结果模糊,不易解释。 [7]通过SOM技术对证券客 户的潜在价值进行了细分。 1.4 SVM 方法支持向量机(support vector machine,SVM)是近年来 流行的分类算法,在解决小样本、非线性及高维模式识别 问题中表现出独特的优势,得到普遍关注和研究应用。SVM 建立在计算学习理论的结构风险最小原则基础上,即使发 生真实错误的概率的上限最小,用于解决二值分类的模式 识别问题。SVM使用一种非线性映射,把训练样本映射到较 高的维;在新的维上,它搜索线性最佳分离超平面;使用 一个适当的对足够高维的非线性映射,两类的数据总可以 被超平面分开。
文献[8]通过SVM方法研究了银行信用卡客户流失模 型,通过与BNP(反馈神经网络)对比研究表明SVM具有更高 的预测准确率。文献[9]建立了基于带有不同权类权重参数 的支持向量机算法的CW-SVM预测模型,通过调整类权杖参 数改变分类面位置,提高了算法的分类准确性,通过实际 的银行信贷客户数据测试表明,模型具有较好的客户流失 预测效果。同时证明了相比传统预测算法,SVM更适合解决 大数据集和不平衡数据。基于各种改进的SVM算法在客户流1失预测中应用也是近来的研究热点。 1.5 贝叶斯分类贝叶斯分类是一种典型的统计学分类方法,用于预测 样本属于特定类的概率,主要分为朴素贝叶斯(Na?ve Bayes)分类和贝叶斯网络(Bayes network)。朴素贝叶斯是 机器学习中常用的概率统计方法,基本思想是基于概率论 的贝叶斯公式和简化假设,根据属性和类别的联合概率来 估计新样本的基本类别。应用朴素贝叶斯提的前提条件是 类条件独立,而贝叶斯网络则用于非独立的联合条件的概 率分布,训练后的贝叶斯网络可以用于分类。客户流失预测技术的对比研究表明,朴素贝叶斯的预 测效果可以与决策树和神经网络相媲美。
文献[10]首先对 引起电信客户流失的客户心理、服务质量等因素进行分析, 确定先验知识,根据先验知识选取特征和训练样本,通过 贝叶斯网络的结构学习和参数学习,建立客户流失模型,通过实验证明了贝叶斯网络是分析客户流失等不确定性问 题的有效工具。 1.6 粗糙集粗糙集理论是一种表示不精确和不确定性数
来源【首席数据官】,更多内容/合作请关注「辉声辉语」公众号,送10G营销资料!
版权声明:本文内容来源互联网整理,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 jkhui22@126.com举报,一经查实,本站将立刻删除。