一:分析背景和数据来源
随着电商的快速发展,人们的购物行为占比也快速增加。作为电商卖家为了获取更多的用户并提升店铺销售量,可以结合产品销售情况和用户情况进行分析,得到有价值的信息,规划自己的销售策略。本文以淘宝天猫上服装商品购买情况数据为例,通过对产品和用户行为分析商品销售数据分析,得出结论,为业务部门提出可行的建议,本次分析数据主要是来自公司的服装商品销售数据。
二:理解数据
共收集了两表:分别为clothes_trade_history.csv称为表1,clothes_user.csv称为表2
表名字段及含义
三:提出问题
产品角度:
1,商品的销量随时间发生怎样的变化?
2.哪个类别商品的销量最多?能提出什么建议?
3,哪个类别商品的销量最少?能提出什么建议?
用户角度:
1,用户的年龄分布情况如何?能提出什么建议?
四,分析方法
分析方法应用:
1.逻辑树分析方法
2.多维度拆解分析方法
3.对比分析方法
分析思维导图:
五、数据清洗
(1)选择子集
由于物品编号和商品属性对我们分析的问题没有意义,故将其隐藏,以便于我们的分析。
(2)列名重命名
由于两张表的字段已经非常便于理解,所以无需重命名。
(3)删除重复值
对整合后的表2在数据选项之下按照用户编号这一唯一标识删除重复值,发现没有重复的数值。
(4)缺失值处理
对表2中的数据查找空白值,并未发现缺失值。(这里查找空白处可以用观察右下角计数的方法,也可以使用excel中的筛选功能)。
(5)一致化处理
表中数据日期显示格式不对,对其进行分列+设置单元格使其按日期格式显示。
(6)异常值处理
性别异常值:性别中出现2的情况,剔除这部分值。
购买数量异常值:对购买数量借助excel数据分析工具进行描述性分析
1.对销售数量进行描述性统计分析:可以发现中位数和众数都是1,平均数量为2.5,而最大值却高达10000,虽然销售数量存在如此高的情况,比如企业型订购,但是这样的数据会对分析情况造成极大的影响,所以会将此类高度异常的值给剔除掉。
这里我们将与平均值的偏差超过三倍标准差的测定值,称为高度异常的异常值,通过计算,当count值大于194.5时,可以称为异常值,这些值可以剔除掉。
六:分析问题
问题:商品的销量随时间发生怎样的变化?
分析:
想看出各类产品的销量波动如何,以及分析出原因,先做出各类产品销量的图表。
从产品销量的总体波动情况来看,2017年和2018年销量情况比较良好,而2016年销量十分低,这是为什么呢?
假设:2016销售数据缺失,导致总体数量下降。
验证假设:
得出结论:可以看出,折线图中2016年3月份~6月份销售数量为0,说明的确是数据缺失,验证了猜想。
从上图可以看出,1,2月份的销量出现低峰,在5月份出现了销量的高峰,11月份又出现了销量高峰。
考虑到16年的数据缺失,所以以上问题主要分析17年和18年的销售数据。
问题1.1 1,2月份销量为什么会出现低峰?
假设:1,2月份出现低峰的原因是,春节假期影响.
验证假设:
可以观察到,2017年1月26日至2月2日销量在1~2月份最低,2018年2月3日至2月15日在1~2月份销量最低,参考下图,可以发现,17年的春节假期在1月27日到2月2日,18年的假期在2月15日至2月21日,再加上临近春节,会有使用年假提前回家的情况,可以推出:春节假期和销量最低的时间段是吻合的。
结论:春节假期导致2月份商品销量降低。
问题1.2:为什么商品销量在五月份出现增长?
分析为什么商品会在五月份出现增长:
假设:五月份销量增长是因为节日的影响。
如果是上述假设是正确的,那么在5月份会有一些特定的商品销售比较高,如中老年装,职业装等。
验证假设:5月份的销量最高的天数,集中在5月12号,5月14号,5月17号,5月20,5月21好,5月28号,且占比较多的大多数为59702476,61661040,和业务部门沟通之后,发现这两类商品编号分别为女装和童装,经过查阅资料,5月份这些销量很多的日期和每年的母亲节、520节日、儿童节的日期比较接近,因此可以得出结论:5月的节日比较多,商品搞促销活动频繁,导致商品销量增加,出现小高峰期。
结论:五月份销量增长是因为和节日相关,商家促销活动较多,使得销量增加。
问题:1.3 11月份销量增长的原因
假设:11月份销量增加是因为双十一的原因。
验证假设:可以看出,将2016年商品销售数据分析,2017年,2018年11月商品销量按日展开,可以发现,2012年11月10号,2013年11月11号,2014年11月11号销量达到顶峰。结合双11平台大促的活动,可以推测销量的增长是由于活动导致的。
结论:每年双11节日平台大型促销活动导致商品销量大增。
问题2:哪类商品销量最高,哪类产品销量最少,能给出何种建议
分析:为什么各个大类产品销量差距如此之大,销量少的类,是所有小类销量都很低,还是少量低,突出的类比较多;销量多的大类,是每个小类的销量都很高,从而带动整体很高,还是有突出的一小类商品?
假设:类61661040产品各小类的销量较为均衡,但是胜在小类种类比较多,使得总销售量很多。
验证假设:类61661040总共有共有268小类产品,总共销售16321件产品,讲筛选标准设置为大于等于1%,剩下22小类产品,占总销售量的58.85%;将筛选标准设置为大于等于0.05%,剩下159类产品,占总销量的98%,这159件占商品种类的59.3%。
结论:类61661040产品因为小类种类比较多,使得总销售量很多。
建议:由于类61661040产品是童装,而儿童的年龄范围很大,从0到12岁,维度很多,建议对童装进行细分,让用户能便利地找到自己需要的产品,同时,在节假日加大促销活动的力度,因为买童装的往往是孩子的母亲,而不是儿童自身,加大促销力度,可以吸引更多的顾客。
假设:类122650008销量少,是因为子类商品太少,导致总量变少。
验证假设:类122620008的子产品一共有13类,总销量有2238,子类的数量是类61661040子类数量的5.22%,总销量是类61661040的13.7%,说明假设是成立。
结论:类122620008之所以销量最低,是因为子类产品类型太少,满足不了用户的需求
问题3:用户的年龄分
来源【首席数据官】,更多内容/合作请关注「辉声辉语」公众号,送10G营销资料!
版权声明:本文内容来源互联网整理,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 jkhui22@126.com举报,一经查实,本站将立刻删除。