一、背景描述
电子商务行业整体数字、网站运营数据数字、用户数据、各种转化率数据、广告投放数据等等无一不具有最重要的战略意义。现在的互联网企业越来越重视数据分析的价值所在。
我们此次要分析英国某电商平台交易的数据集,数据集包含2010年1月12日至2011年12月9日期间在线零售业务中发生的所有交易。该公司主要销售独特的全场礼品。许多客户都是该公司的批发商。
数据来源于
二、思考路径
1,电商行业的业务指标
2,我们想要解决的问题
a,为了能更好安排不同国家的商品类型和价格策略。需要知道不同国家对商品价格的偏好是什么?
b,统计出一年当中,哪个月度销量最高?为网站的销售旺季,提前做好流量管理;提前安排好采购、物流等工作。
c,每个国家卖得最好的商品有哪些?及时发现网购退货率数据分析,做好不同国家的商品供应和库存管理。
d,各国消费水平的差异?制定不同的运营战略。
e,商品的单品退货率如何,整体退货率百分比?可以快速帮助商家找到问题所在。
3,分析思路
4,熟悉数据集字段
InvoiceNo订单编号,StockCode商品编号,Description描述,Quantity数量,InvoiceDate订单日期,UnitPrice单价,CustomerID顾客ID,Country国家
三、分析的过程
数据清洗
数据集大小:541909x8
1,根据我们需要解决的业务问题,C列商品描述和B列商品编号是一一对应关系,只需要保留B列就可以了,我们选择隐藏。
2,为了更方便和直观,我们对列名重命名。
3,删除数据重复项
由于各字段,订单编号、商品编号、描述、数量、订单日期、单价、顾客ID、国家,按照收集规则,各列都可能会存在数据重复的问题,因此不做删除重复项的操作。
4网购退货率数据分析,缺失值处理
数量列、订单号、数量、国家、单价、商品编号计数均为541910,客户编号缺失,因为缺失值较多,并且是不可计算或者预估的,故做删除处理。
删除空值
删除完成之后,各列数据没有缺失值
5,一致化处理
筛选方式检查各列数据,发现‘数量’负值为退货商品,分列处理,定义新列命名为退货数量,购买数量。
后面我们需要做销售额的比较,销售额=单价*购买数量,因此我们增加一列,并且调用乘法函数。
订单时间做分列处理,同时做日期的一致化处理,分出订单的日期和时间两列。
6,按照销售量降序排序
四、构建模型
1,数据透视表统计各国的销售额
数据可视化处理
2,各国商品销量前十名统计
数据可视化处理
3,数据透视表统计网站月度、季度销售额及销量
数据可视化处理
4,客单价的计算方式
客单价=销售总额/总客户数
由于,客户编号的计数统计出来的数据有重复,所以在各国客户人数上,我们用Count函数继续统计。结果写入F5。以此给各国做客单价计算。
平台客单价计算方式,是把各国count之后的数据求和,再拿销售额总数/Sum(Count各国客户)。结果放在H5。
新建一个工作簿,用Vlookup函数把计
来源【首席数据官】,更多内容/合作请关注「辉声辉语」公众号,送10G营销资料!
版权声明:本文内容来源互联网整理,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 jkhui22@126.com举报,一经查实,本站将立刻删除。