首席数据官

Hi, 请登录

如何分析用户数据和产品数据?

/carrie1/ecommerce-data

数据集大小:4198764*8

数据集字段含义: InvoiceNo(发票号码), StockCode(货物代码),Description(货物描述), Quantity(数量), InvoiceDate(发票日期), UnitePrice(单价), CustomerID(客户账号),Country(客户所在国家)

通过下面步骤来分析该数据集:

二. 提出问题

根据对数据的初步了解发现数据主要包括用户类数据和产品类数据。

用户类数据包括用户ID ,用户的所在国家,用户的购买次数(订单数),用户的购买时间,用户购买量。

产品类数据主要包括产品ID, 产品的描述, 产品的单价。

分析思路如下:

根据思维导图提出以下问题:

1.客户可以进行那些分类?哪些客户最具价值? 哪些客户最值得挽留?

2.客户分布在哪些国家?客户最多的国家?客户主要分布区域?

3.客户在哪时间段比较活跃?

10 畅销产品有哪些? 季节的变化是否对产品的销售有影响?那个季度或者月份的销售额最好?

5.最畅销产品单价分布区域?

三.清洗数据

1.选择子集

只选择对数据分析有意义的字段,无意义的字段进行暂时隐藏。通过观察发现每一个产品都有独特的StockCode(货物代码), 可以将该列进行隐藏。

2.列名重命名

下载的数据列名是英文,为了方便分析,将列名更改成大众所熟悉的中文名称。

3.删除重复值

根据唯一的列来删除重复值,5226个重复值被删除

4.缺失值处理和异常值处理

零值和负值:在单价列中,我发现存在15879 行0值和负值,不符合数据销售逻辑。 通过对货物描述的查看, 发现大部分的单价为0的记录是对有缺陷货物的处理或者是礼品。 此类数据对所提出问题的分析无用,所以进行删除。

在数量列中, 发现有9288 个记录是负值, 发票号由首字母和数字组成,推测此类记录为退货记录. 决定此类数据进行单独存储。

空值: 通过filter 功能发现客户销售数据分析, 客户ID缺失的客户主要集中在UK,France, HongKong , Israel, Bahrain, Portugal, Swithzerland, Eire 和不确定国家。查看数据集发现,客户缺失数集的同一商品的单位价格高于有客户账号的价格, 在这里推测无账户进行的交易为零售交易。所以我将这一部分的数据移除出另外的表中。

5.一致化处理

1)货号

通过过滤货号发现, 总共由三个列别组成, 纯数字类, 数字加字母类别,纯字母类。

通过查看描述发现:纯数字类为不同的商品,数字加字母类为同种类商品的不同颜色或者形状,纯字母类为邮寄费或者银行费用等。所以,纯字母类别的数据与我们研究的问题无关,可以删除。并将数字类货号转化成文本形式。

2)发票号

发票号不需要进行计算直接转换成文本格式。选中发票号全列,右击编辑格式,选择文本格式。

6.补充必要数列

计算公司的季度以及月度销售额,所以需要增加每张发票每个商品的合计额。 通过插入函数,计算数量和单价的合计。并双击单元格右下角,运用到全列。

三.构建模型

数据清洗完以后,就可以根据前面提出的问题和分析思路来分析了。

1、客户可以进行那些分类?哪些客户最具价值? 哪些客户最值得挽留?

回答这个问题需要使用RFM模型对所有的客户进行客户价值分类。RFM模型:

R(Recency):是指最近一次消费

F(Frequency):是指消费频率

M(Monetary):是指消费金额

首先计算出R值,F值和M值。 客户最近一次购买产品距离2011 年12月9号的天数,此时间段购买的次数 , 以及单个客户的购买总额。 其次,再对各个值进行标准化。

其次,再设置R、F、M值的参考值。 在此次分析中我选择了平均值为参考值。 然后, 将标准化的的R、F、M值与其参考值进行比较, 大于为1,小于为0. 最后,对客户价值进行分类。

客户价值分类,模型按 (2*2*2) 分为以下标准的8类。

通过对数据按照上面所说方式建模得出以下模型:

【作业点评】

选择哪个图表的判断标准是能不能一眼看的懂这张图形的含义。这里图表选择条形图不对,因为很难一下子区别出来。

因为这里图表是对RFM模型可视化,像这种存在前后转换关系的,如果用条形图不排序,就很难区分出来。但是如果排序的话,就会打乱前后转换关系前后顺序。

单一对比,用条形图和柱形图都没事,如果涉及前后转化关系,条形图就不合适了。这里更适合的是三维象限图,如果你会做的,是更好的。如果不会坐,也可以选择用柱形图。

通过上面图表可以看出,该电商缺乏有价值的客人。重要价值客户, 交易金额大, 交易频繁且最近交易的客人只占27位, 占比0.62%。

重要唤回,挽留和深耕客户占比很低,总占比不到1%; 而一般维持客户却占比百分之30.41%,此类客人虽然交易次数较多但是贡献不大。

由此说明该电商缺乏交易累积金额较高的客户。但值得庆幸的是, 该电商吸引新客户的能力较强且具备比较大的潜力客户的基础。新客户占总比百分之38.55%, 潜力客户占总比百分之15.38%。

通过对模型的分析,我建议该电商可以针对不同的客户群体进行针对性市场调研,根据调研结果的市场营销活动。

例如:对重要价值,唤回,挽留和深耕客户,需要提升公司的服务质量和产品质量 以及价格优势等,刺激其购买冲动,增加客户忠诚度。对于一般维持客户和潜力客户, 通过市场促销手段提升客户的交易额度,让其转化为重要客户。 对于流失的客户,需要进行回访,找到其流失原因。

【作业点评】

这块的建议数据支撑在哪里?你提到了市场营销活动,但是没从数据上看到哪里体现出了市场营销活动出问题了。

客户占比,是怎么得出他们的占比是不好的?是和谁对比得出的结果?

2.客户分布在哪些国家?客户最多的国家?客户主要分布区域?

通过对客户的分布创建地图,得出以下分布图:

从图表中可以看出,该电商的客户主要分布在西欧和北美等发达国家。 其中客户主要以英国客户为主, 客户数为3943,占比90.37%。

为了分析除了本土(英国)以外,其他国家客户的占比,我把英国的客户除去,得到其他国家客户占比:

由上图看出该电商的大部分客户除了在英国本土外, 其余大部分集主要集中在西欧。

所以,我建议,在维持好英国本土市场的同时,可以适当开发欧洲市场,特别是西欧市场。

通过对各国销售的对比发现,该电商的主要客户位于英国本土,国际客人占比很少。 但是欧洲市场是一个很大的市场,目标客户群体更大。且 英国的地理位置也方便该电商在欧洲的推广。

欧洲市场与英国市场基本由相同的消费习惯, 开发阻力较小,比较容易成。 例如,通过市场推广搜索,参加小礼品的交易展览,专业推广平台,提升该公司的国外市场特别的知名度。

【作业点评】

这两个占比那么高的原因是为什么呢?需要进一步拉取数据来进行分析背后的原因。

3.客户在哪时间段比较活跃?

将客户的的发票个数根据不同时间段分析用户的活跃度

假定该问题以订单数的多少了衡量成交量。以小时为单位对时间进行分组,发现客户的成交时间主要位于英国的06到20 点 。 订单量从九点这个时间开始大量增加,一直到12点的时间段达到顶峰。成交量最多的是十点到下午两点期间。

试看结束,如继续查看请付费↓↓↓↓
打赏0.5元才能查看本内容,立即打赏

来源【首席数据官】,更多内容/合作请关注「辉声辉语」公众号,送10G营销资料!

版权声明:本文内容来源互联网整理,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 jkhui22@126.com举报,一经查实,本站将立刻删除。

相关推荐

二维码
评论