EXCEL作为职场办公必备工具,应用范围非常广泛。从职场小白利用它进行简单的信息记录,到职场大神利用它进行信息分析,它总能发挥自己的作用。EXCEL是数据分析的基本工具,如果不考虑性能和数据量,它可以应付绝大部分的分析工作。
数据分析步骤:
提出问题:明确的问题,可以为后期的数据分析提供目标和方向。理解数据:理解数据包含两方面的内容:采集数据、查看数据集信息。数据清洗:数据清洗也叫数据预处理。构建模型:它是对清洗后的数据进行分析,简单的分析就是得出一些业务指标。数据可视化:将得出的分析结果利用图形的方式进行展示;
这里借用猴子老师提供的招聘网站源数据,利用EXCEL工具来进行数据分析工作。注意,在进行数据分析前,将原始数据进行备份,后续所有的操作都在备份数据上进行操作。防止后期有错误,可以找到原始数据进行核对。
第一步:提出问题
1.在哪些城市找到数据分析师工作的机会比较大?
2.数据分析师的薪水如何?
3.根据工作经验的不同,薪酬是怎样变化的?
第二步:理解数据
理解数据各列表示的意思。这份数据包含:城市、公司全称、公司ID、公司简称、公司大小、公司所在商圈等信息。其中,公司ID、职位ID均为数字类型,其他列信息均为字符串类型,字符串类型的数据是没法直接用于计算的。
第三步:数据清洗
很多时候我们拿到的原始数据都非常大,且存在大量无用信息。在进行数据分析前,我们就需要对数据进行清洗,去掉这些无用信息。数据清洗可以分为7步:选择子集、列名称重命名、删除重复值、缺失值处理、一致化处理、数据排序、异常值处理。
1、选择子集:选择数据分析感兴趣的几个列。源数据中,公司ID是唯一标识,而公司全名和公司简称均于公司ID存在重复。所以这里选择这两列,然后将其隐藏。注意:很多人在处理数据时喜欢将不需要的列信息直接进行删除,很多时候删除了数据列信息天津搜狐视频招聘数据分析,但是到后面却发现又需要用到删除的信息。所以这里建议隐藏,而不是删除。
2、列名称重命名:很多时候我们拿到的源数据列名称各种各样,比如有英文的,有特殊字符的。为了方便后期数据分析,我们可以将列名称重新命名。
3、删除重复值:数据中的职位ID是应聘职位的唯一标识,当它出现重复时,说明数据中有重复的职位数据,需要经重复的职位数据进行删除处理。这里进行处理后,系统共删除了1843个重复值,保留了5031个唯一值。
4、缺失值处理:原始数据可能会因为各种原因缺失数据。缺失值处理方式有4种,一:通过人工手动补充,主要针对于缺失值比较少的情况;二:删除缺失数据;三:用平均值代替缺失值;四:用统计模型计算出来的值代替缺失值。
为了保证后续的数据分析工作正常进行,我们需要对缺失值进行处理。这里针对城市列缺失数据进行补充。首先,通过EXCEL的定位功能,查到到空值位置。然后利用CTRL+ENTER对缺失值进行补充。
5、一致化处理:一致化指的是数据是否有统一的标准或者是命名。如元数据中的公司所属领域,很多公司属于多个领域(电子商务,数据服务)各个领域间用逗号隔开。这种格式的不一致,会影响后期的分析结果,我们需要对这种数据进行统一命名处理。
这里采用EXCEL的分列功能,将公司所属领域中的信息按照逗号分隔符号,进行分隔处理。注意:分列功能会覆盖掉右列单元格,所以要先复制需要进行处理的这一列,将其复制到最后一个空白列的地方,然后进行操作。
薪水列写的是一个薪水范围,采用的是文本格式(7K-9K),这种文本格式无法进行计算,这种情况后面无法进行平均薪水计算。所以我们还需要对薪水列信息进行一致化处理。这里我们在薪水后面增加3列信息,分别为最低薪水、最高薪水、以及平均薪水。
利用函数:LEFT(M2,FIND("-",M2)-2),求出最低薪水;
利用函数:MID(M2,FIND("-",M2)+1,LEN(M2)-FIND("-",M2)-1),求出最高薪水;
将求得的最高薪水、最低薪水转换为数字格式后,利用函数AVERAGE,计算出平均薪水。
6、数据排序。数据经过排序后,可以帮助我们看到更多信息。比如,想知道拿到平均薪水最高的是多少?我们可以对平均薪水进行降序排序。
7、异常值处理。利用数据透视表对职位名称进行统计,发现其中数据分析师是出现对多次数的,其次是数据产品经理。同时,这其中还出现了很多非数据分析的岗位。本次分析的主要对象是数据分析师岗位的相关信息,孤儿其他岗位信息都属于异常值,需要对其进行处理,以免干扰分析结果。
在职位名称
来源【首席数据官】,更多内容/合作请关注「辉声辉语」公众号,送10G营销资料!
版权声明:本文内容来源互联网整理,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 jkhui22@126.com举报,一经查实,本站将立刻删除。