首席数据官

Hi, 请登录

用Excel做数据分析实战

一、数据分析的步骤

1、明确问题

首先要清楚的知道需要解决的问题是哪些,有了这个目的后才能为后续分析提供方向

2、理解数据

我们需要弄明白各个数据的含义,各个字符串的的特征

3、数据清洗

数据清洗又叫做数据预处理,即是把数据变成我们喜欢的样子,以便于后面的运用和分析。数据清洗又可以分为以下7个步骤

(1)选择子集(如选择感兴趣的数据分析的内容项目)

(2)列名重命名(如有的列名是英文或者不符合中文逻辑的,需要进行重命名)

(3)删除重复值

(4)缺失值处理

(5)一致化处理

(6)数据排序

(7)异常值处理

4、数据分析或构建模型

通过使用Excel中各项函数功能,结合第一步中想要解决的问题的目标,对已经处理好的数据进行分析或是构建分析模型

5、数据可视化

将分析数据的过程以及得出的结论用图表或者其他方式展现出来

二、Excel数据分析应用实战

此次选用的数据集来自于淘宝和天猫上购买婴儿用户-阿里巴巴天池/dataset/dataDetail?dataId=45,共由两个表格数据组成,第一个为购买商品表,第二个为婴儿信息表。

1、明确问题

(1)哪类产品的一级分类购买率最高,在这一类别中,最为畅销的又是哪一产品?

(2)商品在各年以及各季度的销售趋势如何?

(3)购买商品用户的年龄段和性别分布情况以及购买商品数量的差异?

2、理解数据

第一个购买商品表中,各字段含义为:

user_id:用户id

auction_id:物品编号(item_id)

cat_id: 商品种类ID(商品二级分类,表示商品属于哪个类别)

cat1: 商品种类ID(商品一级分类,表示商品属于哪个类别)

[通过cat_id、cat1这两个数据维度,可以通过数据透视展示逻辑关系]

property:商品属性(属性值可以是大小,可以是尺码、毫升等数字,还可以指品牌等,一切可以描述商品特征的都可以称为属性值)

buy_mount:购买数量

day:购买时间(时间戳格式)

第二个婴儿信息表中,各字段的含义为:

excel数据曲线分析_excel数据分析怎么做_excel做柱状图的数据

user_id:用户id

birthday:出生日期

gender:性别(0女性;1男性;2未知的性别)

3、数据清洗

将数据源备份,复制成副本,在副本上进行操作,以免影响数据源。

(1)选择子集

这两个文档的子集都精简筛选此处不用操作

(2)列名重命名

源数据列名为英文,直观看不方便,将每个列名更改为中文名

来源于购买商品表

来源于婴儿信息表

(3)删除重复值

两个表均以用户ID作为唯一标识,对数据集进行处理

表一中有重复值27项,以及进行了删除处理

表二中未发现重复值

具体步骤:进行全选表格-数据-删除重复项-取消全选-选择用户ID-确定

来源于购买商品表

来源于婴儿信息表

(4)缺失值处理

通过分别选择每一列,发现表1中的除商品属性这一字段的行数有29803行外,其他字段的行数均为29945行,商品属性这一字段缺失数据有142行。

表2各字段均为954行,没有缺失值。

对于缺失值,有四种处理方法:

1)采用人工手动补全,这是针对缺失数据比较少的情况;

2)删除这个缺失数据;

3)用平均值代替这个缺失值;

4)用统计模型计算这个值,然后代替这个缺失值;

这里我们选择方法一、选中商品属性这一列数据后,通过开始功能下的查找和选择功能区,点击定位条件,选择空值,然后填入数据并按住并按住ctrl+enter,一次性补全所有缺失值;

(5)一致化处理

日期的一致化处理:这里有两种方法,

第一种:选择数据-分列-分隔符号-下一步-日期格式;这种方法可以解决大部分数据,但仍有小部分数据无法解决,这时用到法2,法2:点击日期这一列数据-设置单元格格式-自定义-yyyy/m/d。

excel做柱状图的数据_excel数据分析怎么做_excel数据曲线分析

性别的一致化处理:0-女,1-男,2-未知的性别;采用开始-替换功能。

选中性别那一列,开始功能区查找和选择-选替换,按照对应的值对应的性别进行全部替换

表的合并:由于填写婴儿信息表数据的用户相对于表一中的用户来说特别少,故在解决和处理有关婴儿信息表数据时,直接在婴儿信息表中利用vlookup函数对表1、表2通过多表查询合并为统一的一张表格,并筛选出能够匹配的数据

1)婴儿信息表添加购买商品时的年龄列

先在婴儿信息表中添加一列购买时间,用vlookup函数将表1中对应用户ID的购买时间vlookup到表2中

添加字段:采用Datedif函数,DATEDIF(出生日期,购买日期,'y')计算出用户的年龄或者采用(购买日期-出生日期)/365的方法得出用户的年龄(需要注意的是:即使购买日期在出生日期之前也是符合业务实际的,可以将其划分为未出生)

(6)数据排序

按照购买数量进行排序,结果如下图所示:

(7)异常值处理

用户性别是未知的数据进行删除;

通过数据透视表,对年龄这一字段的数据进行统计,发现有一异常数据:年龄为28,对其进行删除;

四、数据分析或构建模型

这一部分我们针对每个问题分别进行细致的分析:

1.哪类产品的一级分类购买率最高,在这一类别中,最为畅销的又是哪一产品?

通过数据透视表可以发现excel数据分析怎么做,选择商品一级分类和购买数量这两个字段,得出商品一级分类28为购买率最高的商品

在得出商品一级分类28为购买率最高的产品的前提下,先通过数据筛选功能,筛选商品一级分类28的产品,再通过筛选功能得出商品一级分类28下的最畅销的二级分类商品是50012788

试看结束,如继续查看请付费↓↓↓↓
打赏0.5元才能查看本内容,立即打赏

来源【首席数据官】,更多内容/合作请关注「辉声辉语」公众号,送10G营销资料!

版权声明:本文内容来源互联网整理,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 jkhui22@126.com举报,一经查实,本站将立刻删除。

相关推荐

二维码
评论