/carrie1/ecommerce-data
数据集大小:4198764*8
数据集字段含义: InvoiceNo(发票号码), StockCode(货物代码),Description(货物描述), Quantity(数量), InvoiceDate(发票日期), UnitePrice(单价), CustomerID(客户账号),Country(客户所在国家)
通过下面步骤来分析该数据集:
二. 提出问题
根据对数据的初步了解发现数据主要包括用户类数据和产品类数据。
用户类数据包括用户ID ,用户的所在国家,用户的购买次数(订单数),用户的购买时间,用户购买量。
产品类数据主要包括产品ID, 产品的描述, 产品的单价。
分析思路如下:
根据思维导图提出以下问题:
1.客户可以进行那些分类?哪些客户最具价值? 哪些客户最值得挽留?
2.客户分布在哪些国家?客户最多的国家?客户主要分布区域?
3.客户在哪时间段比较活跃?
10 畅销产品有哪些? 季节的变化是否对产品的销售有影响?那个季度或者月份的销售额最好?
5.最畅销产品单价分布区域?
三.清洗数据
1.选择子集
只选择对数据分析有意义的字段,无意义的字段进行暂时隐藏。通过观察发现每一个产品都有独特的StockCode(货物代码), 可以将该列进行隐藏。
2.列名重命名
下载的数据列名是英文,为了方便分析,将列名更改成大众所熟悉的中文名称。
3.删除重复值
根据唯一的列来删除重复值,5226个重复值被删除
4.缺失值处理和异常值处理
零值和负值:在单价列中,我发现存在15879 行0值和负值,不符合数据销售逻辑。 通过对货物描述的查看, 发现大部分的单价为0的记录是对有缺陷货物的处理或者是礼品。 此类数据对所提出问题的分析无用,所以进行删除。
在数量列中, 发现有9288 个记录是负值, 发票号由首字母和数字组成,推测此类记录为退货记录. 决定此类数据进行单独存储。
空值: 通过filter 功能发现客户销售数据分析, 客户ID缺失的客户主要集中在UK,France, HongKong , Israel, Bahrain, Portugal, Swithzerland, Eire 和不确定国家。查看数据集发现,客户缺失数集的同一商品的单位价格高于有客户账号的价格, 在这里推测无账户进行的交易为零售交易。所以我将这一部分的数据移除出另外的表中。
5.一致化处理
1)货号
通过过滤货号发现, 总共由三个列别组成, 纯数字类, 数字加字母类别,纯字母类。
通过查看描述发现:纯数字类为不同的商品,数字加字母类为同种类商品的不同颜色或者形状,纯字母类为邮寄费或者银行费用等。所以,纯字母类别的数据与我们研究的问题无关,可以删除。并将数字类货号转化成文本形式。
2)发票号
发票号不需要进行计算直接转换成文本格式。选中发票号全列,右击编辑格式,选择文本格式。
6.补充必要数列
计算公司的季度以及月度销售额,所以需要增加每张发票每个商品的合计额。 通过插入函数,计算数量和单价的合计。并双击单元格右下角,运用到全列。
三.构建模型
数据清洗完以后,就可以根据前面提出的问题和分析思路来分析了。
1、客户可以进行那些分类?哪些客户最具价值? 哪些客户最值得挽留?
回答这个问题需要使用RFM模型对所有的客户进行客户价值分类。RFM模型:
R(Recency):是指最近一次消费
F(Frequency):是指消费频率
M(Monetary):是指消费金额
首先计算出R值,F值和M值。 客户最近一次购买产品距离2011 年12月9号的天数,此时间段购买的次数 , 以及单个客户的购买总额。 其次,再对各个值进行标准化。
其次,再设置R、F、M值的参考值。 在此次分析中我选择了平均值为参考值。 然后, 将标准化的的R、F、M值与其参考值进行比较, 大于为1,小于为0. 最后,对客户价值进行分类。
客户价值分类,模型按 (2*2*2) 分为以下标准的8类。
通过对数据按照上面所说方式建模得出以下模型:
【作业点评】
选择哪个图表的判断标准是能不能一眼看的懂这张图形的含义。这里图表选择条形图不对,因为很难一下子区别出来。
因为这里图表是对RFM模型可视化,像这种存在前后转换关系的,如果用条形图不排序,就很难区分出来。但是如果排序的话,就会打乱前后转换关系前后顺序。
单一对比,用条形图和柱形图都没事,如果涉及前后转化关系,条形图就不合适了。这里更适合的是三维象限图,如果你会做的,是更好的。如果不会坐,也可以选择用柱形图。
通过上面图表可以看出,该电商缺乏有价值的客人。重要价值客户, 交易金额大, 交易频繁且最近交易的客人只占27位, 占比0.62%。
重要唤回,挽留和深耕客户占比很低,总占比不到1%; 而一般维持客户却占比百分之30.41%,此类客人虽然交易次数较多但是贡献不大。
由此说明该电商缺乏交易累积金额较高的客户。但值得庆幸的是, 该电商吸引新客户的能力较强且具备比较大的潜力客户的基础。新客户占总比百分之38.55%, 潜力客户占总比百分之15.38%。
通过对模型的分析,我建议该电商可以针对不同的客户群体进行针对性市场调研,根据调研结果的市场营销活动。
例如:对重要价值,唤回,挽留和深耕客户,需要提升公司的服务质量和产品质量 以及价格优势等,刺激其购买冲动,增加客户忠诚度。对于一般维持客户和潜力客户, 通过市场促销手段提升客户的交易额度,让其转化为重要客户。 对于流失的客户,需要进行回访,找到其流失原因。
【作业点评】
这块的建议数据支撑在哪里?你提到了市场营销活动,但是没从数据上看到哪里体现出了市场营销活动出问题了。
客户占比,是怎么得出他们的占比是不好的?是和谁对比得出的结果?
2.客户分布在哪些国家?客户最多的国家?客户主要分布区域?
通过对客户的分布创建地图,得出以下分布图:
从图表中可以看出,该电商的客户主要分布在西欧和北美等发达国家。 其中客户主要以英国客户为主, 客户数为3943,占比90.37%。
为了分析除了本土(英国)以外,其他国家客户的占比,我把英国的客户除去,得到其他国家客户占比:
由上图看出该电商的大部分客户除了在英国本土外, 其余大部分集主要集中在西欧。
所以,我建议,在维持好英国本土市场的同时,可以适当开发欧洲市场,特别是西欧市场。
通过对各国销售的对比发现,该电商的主要客户位于英国本土,国际客人占比很少。 但是欧洲市场是一个很大的市场,目标客户群体更大。且 英国的地理位置也方便该电商在欧洲的推广。
欧洲市场与英国市场基本由相同的消费习惯, 开发阻力较小,比较容易成。 例如,通过市场推广搜索,参加小礼品的交易展览,专业推广平台,提升该公司的国外市场特别的知名度。
【作业点评】
这两个占比那么高的原因是为什么呢?需要进一步拉取数据来进行分析背后的原因。
3.客户在哪时间段比较活跃?
将客户的的发票个数根据不同时间段分析用户的活跃度
假定该问题以订单数的多少了衡量成交量。以小时为单位对时间进行分组,发现客户的成交时间主要位于英国的06到20 点 。 订单量从九点这个时间开始大量增加,一直到12点的时间段达到顶峰。成交量最多的是十点到下午两点期间。
来源【首席数据官】,更多内容/合作请关注「辉声辉语」公众号,送10G营销资料!
版权声明:本文内容来源互联网整理,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 jkhui22@126.com举报,一经查实,本站将立刻删除。