一、数据分析的步骤
1、明确问题
首先要清楚的知道需要解决的问题是哪些,有了这个目的后才能为后续分析提供方向
2、理解数据
我们需要弄明白各个数据的含义,各个字符串的的特征
3、数据清洗
数据清洗又叫做数据预处理,即是把数据变成我们喜欢的样子,以便于后面的运用和分析。数据清洗又可以分为以下7个步骤
(1)选择子集(如选择感兴趣的数据分析的内容项目)
(2)列名重命名(如有的列名是英文或者不符合中文逻辑的,需要进行重命名)
(3)删除重复值
(4)缺失值处理
(5)一致化处理
(6)数据排序
(7)异常值处理
4、数据分析或构建模型
通过使用Excel中各项函数功能,结合第一步中想要解决的问题的目标,对已经处理好的数据进行分析或是构建分析模型
5、数据可视化
将分析数据的过程以及得出的结论用图表或者其他方式展现出来
二、Excel数据分析应用实战
此次选用的数据集来自于淘宝和天猫上购买婴儿用户-阿里巴巴天池/dataset/dataDetail?dataId=45,共由两个表格数据组成,第一个为购买商品表,第二个为婴儿信息表。
1、明确问题
(1)哪类产品的一级分类购买率最高,在这一类别中,最为畅销的又是哪一产品?
(2)商品在各年以及各季度的销售趋势如何?
(3)购买商品用户的年龄段和性别分布情况以及购买商品数量的差异?
2、理解数据
第一个购买商品表中,各字段含义为:
user_id:用户id
auction_id:物品编号(item_id)
cat_id: 商品种类ID(商品二级分类,表示商品属于哪个类别)
cat1: 商品种类ID(商品一级分类,表示商品属于哪个类别)
[通过cat_id、cat1这两个数据维度,可以通过数据透视展示逻辑关系]
property:商品属性(属性值可以是大小,可以是尺码、毫升等数字,还可以指品牌等,一切可以描述商品特征的都可以称为属性值)
buy_mount:购买数量
day:购买时间(时间戳格式)
第二个婴儿信息表中,各字段的含义为:
user_id:用户id
birthday:出生日期
gender:性别(0女性;1男性;2未知的性别)
3、数据清洗
将数据源备份,复制成副本,在副本上进行操作,以免影响数据源。
(1)选择子集
这两个文档的子集都精简筛选此处不用操作
(2)列名重命名
源数据列名为英文,直观看不方便,将每个列名更改为中文名
来源于购买商品表
来源于婴儿信息表
(3)删除重复值
两个表均以用户ID作为唯一标识,对数据集进行处理
表一中有重复值27项,以及进行了删除处理
表二中未发现重复值
具体步骤:进行全选表格-数据-删除重复项-取消全选-选择用户ID-确定
来源于购买商品表
来源于婴儿信息表
(4)缺失值处理
通过分别选择每一列,发现表1中的除商品属性这一字段的行数有29803行外,其他字段的行数均为29945行,商品属性这一字段缺失数据有142行。
表2各字段均为954行,没有缺失值。
对于缺失值,有四种处理方法:
1)采用人工手动补全,这是针对缺失数据比较少的情况;
2)删除这个缺失数据;
3)用平均值代替这个缺失值;
4)用统计模型计算这个值,然后代替这个缺失值;
这里我们选择方法一、选中商品属性这一列数据后,通过开始功能下的查找和选择功能区,点击定位条件,选择空值,然后填入数据并按住并按住ctrl+enter,一次性补全所有缺失值;
(5)一致化处理
日期的一致化处理:这里有两种方法,
第一种:选择数据-分列-分隔符号-下一步-日期格式;这种方法可以解决大部分数据,但仍有小部分数据无法解决,这时用到法2,法2:点击日期这一列数据-设置单元格格式-自定义-yyyy/m/d。
性别的一致化处理:0-女,1-男,2-未知的性别;采用开始-替换功能。
选中性别那一列,开始功能区查找和选择-选替换,按照对应的值对应的性别进行全部替换
表的合并:由于填写婴儿信息表数据的用户相对于表一中的用户来说特别少,故在解决和处理有关婴儿信息表数据时,直接在婴儿信息表中利用vlookup函数对表1、表2通过多表查询合并为统一的一张表格,并筛选出能够匹配的数据
1)婴儿信息表添加购买商品时的年龄列
先在婴儿信息表中添加一列购买时间,用vlookup函数将表1中对应用户ID的购买时间vlookup到表2中
添加字段:采用Datedif函数,DATEDIF(出生日期,购买日期,'y')计算出用户的年龄或者采用(购买日期-出生日期)/365的方法得出用户的年龄(需要注意的是:即使购买日期在出生日期之前也是符合业务实际的,可以将其划分为未出生)
(6)数据排序
按照购买数量进行排序,结果如下图所示:
(7)异常值处理
用户性别是未知的数据进行删除;
通过数据透视表,对年龄这一字段的数据进行统计,发现有一异常数据:年龄为28,对其进行删除;
四、数据分析或构建模型
这一部分我们针对每个问题分别进行细致的分析:
1.哪类产品的一级分类购买率最高,在这一类别中,最为畅销的又是哪一产品?
通过数据透视表可以发现excel数据分析怎么做,选择商品一级分类和购买数量这两个字段,得出商品一级分类28为购买率最高的商品
在得出商品一级分类28为购买率最高的产品的前提下,先通过数据筛选功能,筛选商品一级分类28的产品,再通过筛选功能得出商品一级分类28下的最畅销的二级分类商品是50012788
来源【首席数据官】,更多内容/合作请关注「辉声辉语」公众号,送10G营销资料!
版权声明:本文内容来源互联网整理,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 jkhui22@126.com举报,一经查实,本站将立刻删除。