本期我们有幸采访到的嘉宾名叫兰锦池,2012年硕士毕业,概率论与数理统计专业,崇尚概率论和统计学解决问题的思想,喜爱折腾各种实际数据,愿意跟数据挖掘模型死磕。
现在他是一名资深数据挖掘工程师,主要负责用户行为分析和精准营销相关工作;曾做过某电信省公司的手机用户行为价值分群、手机终端升级概率预测模型、用户流失预警模型等。
在兰锦池看来,工作中最困难的还是数据源的采集和结构化数据的获取,比如曾经做用户的手机上网行为画像,需要采集手机上网日志数据大数据行业应用案例,并转化为兴趣点数据。需要数据分析狮提出数据需求、采集规则、计算口径等非常详细的方案,期间还得与业务和数据采集部门深入合作。简而言之,就是,数据分析狮不仅仅是呆板的技术人员,而且能沟通协调、整合资源的多面手。
本期,他带来了一个电信用户分群案例,与大家分享。
1、业务问题背景
某省电信运营商e8套餐(宽带+固话)升级e9(宽带+固话+手机)的主要业务目标为针对e8客户加装电信C网号码并购买手机,升级为e9融合套餐或e9自主套餐用户。即,通过电信的自身的宽带客户资源,进行精准电话营销,促使用户购买手机,从而提升电信在手机市场的占有率。
2、数据理解:e8升e9的数据理解
3、确定分析对象
本环节关键点:
缩小分析基础客户群范围大数据行业应用案例,从表中238万宽带客户中筛选出24万符合业务目标的e8客户,作为数据挖掘的基础客户群
具体步骤:
常用的数据挖掘基础客户群筛选维度如下:
分析对象筛选流程:
以e8升e9为例,根据前期业务和数据理解,本次挖掘的基本目标客户为e8用户,且在同账户下无C网手机。
具体数据样本选取路径如下:
注,具体操作方法:
4、变量筛选
以e8升e9案例中变量处理为例,具体筛选流程如下:
5、决策树模型的建立
(1)选择模型输入变量
根据数据准备阶段字段筛选结果选择了9个字段作为模型输入变量。CHAID节点对应的目标变量和预测变量设置,见下截图。
(2)模型输出结果
运行CHAID决策树节点后,Modeler会根据样本数据和输入变量训练决策树模型。虽然输入了9个变量但是CHAID决策树节点训练的模型最终生成决策树所选择的变量只有5个,分别是宽带在网时长(PD_PROM_FEE)、固话通话时长(VO_MOU_FIX_AVG)、固话ARPU(MB_FIX_ARPU_AVG)、宽带在网时长(PD_BB_TENURE)、宽带流量(VO_BB_VOL)。可以看出,这5个变
来源【首席数据官】,更多内容/合作请关注「辉声辉语」公众号,送10G营销资料!
版权声明:本文内容来源互联网整理,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 jkhui22@126.com举报,一经查实,本站将立刻删除。