首席数据官

Hi, 请登录

python数据分析:携程出行产品预测未来14个月销量

原文:#!/forum/postdetail/59194c685d9f204ee315ed90

回复公众号“携程预测”获取本文数据分析python源码.

调查发现,在出行产品业务中,不同区域的产品需求量级不一样,不同时段需求量会有高低起伏,相同区域相同时段各产品的需求量因产品特性不同又有差异。

此次竞赛的目的正是为了深入了解产品需求量和产品特性、历史销量的关系,挖掘出影响需求量的关键因素,预测出行产品未来14个月每月的销量,从而指导产品的库存管理和定价策略,这将对收益管理提升有着重要作用。

团队介绍

携程商业模式优劣势分析_携程 大数据分析师_携程数据分析

我们团队三人分别来自湖南大学、云南大学和中国科学技术大学。我们在比赛前期主要采用不同的方式各自为战,以便形成差异化的模型用于后期融合。

接下来,我将从问题分析、特征工程、模型选择和模型融合四方面来分享我们比赛的方法和经验。

赛题分析

携程 大数据分析师_携程商业模式优劣势分析_携程数据分析

首先通过题意可以得出,本题是一个预测的问题,既可以当做时间序列问题来处理,也可以当做回归问题来处理。若使用时间序列模型,对于预测月销量这一目标,会发现预测周期14个月对于23个月的历史数据显得过长,因此时间序列模型无法充分提取总体的变化趋势以及周期内的规律,因此将此题看做回归问题是更为合适的做法。

携程数据分析_携程 大数据分析师_携程商业模式优劣势分析

特征工程

在进行特征工程之前,要进行数据预处理。预处理工作主要包括两项,第一是剔除缺失率过高的特征,因为缺失率过高的特征基本上不包含有用信息;第二对缺失值选择合适的方法进行填补。

携程 大数据分析师_携程数据分析_携程商业模式优劣势分析

数据预处理完成后,开始构建特征,当我们把经纬度用图形呈现出来的时候,发现地理位置出现成块的聚集现象,这些聚集区可能在真实的地理位置上是同一块区域划分。于是自然地想到采用聚类的方式来处理。

携程数据分析_携程商业模式优劣势分析_携程 大数据分析师

此外发现聚集的程度是由下至上越来越发散,这里面可能存在一些信息,为了将这一信息保留,在聚类时,将类别名从下往上分别标记为0-8。

携程数据分析_携程 大数据分析师_携程商业模式优劣势分析

对于三项日期特征(startdate、cooperatdate和upgradedate),主要使用了两项处理方式:(1)product_month减日期;(2)2017年1月减日期。

携程 大数据分析师_携程商业模式优劣势分析_携程数据分析

在产品信息表中,总共给出了5种产品评价指标,其中3种是评级特征,一种为评分特征,另一种为点评人数特征。由于3种评级特征的分布大体一致,直接通过求和获得总评级特征。而点评人数特征则是该比赛的强特征,能够强有力的反映销量,于是我们通过点评人数特征额外地挖掘出“单位时长点评人数”和“单位产品点评人数”特征,以此来反映该产品的受欢迎程度。

携程 大数据分析师_携程商业模式优劣势分析_携程数据分析

对于产品的价格信息,我们主要是计算了价格的相关统计量,包括每个产品的最高价格、最低价格、平均价格、价格方差以及平均价格在所有价格中的排名(排序特征往往能消除数值量级变化过大和异常值带来的影响)。

携程 大数据分析师_携程数据分析_携程商业模式优劣势分析

由于每个产品对应唯一的订单属性1,因此订单属性1能够很好体现产品所属的类型。而每个产品在其他订单属性上均出现多属性值,因而从属性值数量的比值中抽取信息。

携程商业模式优劣势分析_携程 大数据分析师_携程数据分析

节假日永远是人们出行高峰期,而每个月的节假日天数并不相同,直观地来看,节假日天数越多的月份销量往往越高。因此我们将各月的节假日天数作为额外的特征。

携程数据分析_携程商业模式优劣势分析_携程 大数据分析师

总体来说,随着人们生活水平的提高,旅游人数也在逐年提高。有两种增长的趋势:(1)年内趋势,即每年的销售逐月增长,销售量以年为周期进行变化;(2)总体趋势,即销售量逐年增长。针对第一种趋势,我们提取月份值为特征。对于第二种趋势,则将2014年1月至2017年1月转换为1-37的序数特征,但是在选择采用树模型的时候,由于训练集中没有大于23的值,因此23以上的数值等价于23。

携程数据分析_携程 大数据分析师_携程商业模式优劣势分析

模型选择

通过多模型的对比,我们最终采用了XGBoost和lightGBM。

携程商业模式优劣势分析_携程数据分析_携程 大数据分析师

为了使多模型融合得到有效提升,我们采取了多种不同的方式设计模型。第一种是针对共线性特征分别构造多个模型,或者对类别特征采用不同的编码方式。第二种是对较优的单模型特征采用两种不同的算法(XGBoost和lightGBM),第三种则是分别对XGBoost和lightGBM采用10折交叉选取90%的数据训练预测。最后在模型融合时候,我们采取的策略是根据各单模型的表现效果,对各结果进行加权平均,这种方法不仅操作简单,也能使融合效果得到明显提升。其中使用了一个技巧,就是设计一个相对较差的模型,在加权平均时,赋予其负权重。

模型融合

携程 大数据分析师_携程商业模式优劣势分析_携程数据分析

这是我们关于本次赛题的整体思路展示,希望能对解决类似问题大家有所帮助。

选手问答 Q1 代和平同学你好,首先恭喜你们获得了比赛的团体第三名。作为队长能简单就你们团队的情况做个简单介绍吗?

好的,我们团队主要由三名成员组成:队长代和平,队员胡涛和乔世吉。胡涛是来自云南大学,专业是应用统计学。乔世吉来自中国科学技术大学的核科学技术学院,而我则来自湖南大学,专业是管理科学与工程。我们三个是在比赛过程中认识的,因为在比赛初期大家成绩比较接近,然后我们就决定一起组队。

在比赛过程中,我们团队在前期主要采用不同的方式各自为战,以便形成差异化的模型用于后期融合这种方式来相

试看结束,如继续查看请付费↓↓↓↓
打赏0.5元才能查看本内容,立即打赏

来源【首席数据官】,更多内容/合作请关注「辉声辉语」公众号,送10G营销资料!

版权声明:本文内容来源互联网整理,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 jkhui22@126.com举报,一经查实,本站将立刻删除。

相关推荐

评论

  • 昵称 (必填)
  • 邮箱
  • 网址
二维码
评论