为了练习Excel技能,以及实践数据分析的流程。我用Web Scraper爬取了前程无忧4月16日全国发布的约2500条数据分析的职位信息,对数据分析岗位的招聘情况进行简单的分析。整个过程分为五个步骤:明确目的,观察数据,清洗数据,分析过程,得出结论。
01 明确目的
一切数据分析都是以业务为核心目的。本次项目的目的是通过数据分析岗位的招聘信息,包括地区分布、薪资水平、职位要求等,了解***数据分析岗位的情况。
02 观察数据
首先看一下哪些字段数据可以去除。link为职位详情页链接招聘网站数据分析,是爬取二级页面需要的;Releasedate是职位发布时间,都为4月16日,这两列可以删除。
JD:职位描述、address:公司地址、companyProfile:公司简介、keyword:职位关键字
虽然JD中的职位描述比info中信息更准确,但此次初级分析不对文本进行挖掘,所以先隐藏。尽量不删除数据,而是隐藏,保证原始数据的完整性,以后可能会用到。
03 清洗数据
检查数据缺失:Excel中可以通过选取该列,在屏幕的右下角查看计数,以此判别有无缺失数据,缺失值很大程度上影响分析结果。如果某一字段缺失数据较多(超过50%),分析过程中要考虑是否删除该字段,因为缺失过多就没有业务意义了。
salary、companyType、Field、conmpanySize都存在一小部分的缺失,不影响实际分析。
检查数据是否有脏数据:脏数据包括乱码,错位招聘网站数据分析,重复值,未匹配数据,加密数据等。能影响到分析的都算脏数据,没有一致化也可以算。
数据标准结构:就是将特殊结构的数据进行转换和规整。
我们首先把 city、salary、info拆开。
先将salary拆成***薪水和***薪水。比较麻烦的是薪水的表示方式有“XX元/天”,“X-X万/年”,“X-X千/月”,“X-X万/月”,还有空白项。
以天结算的可能是兼职,数量很少直接删除。
空白项是因为岗位链接是公司主页,而不是前程无忧的职位详情页,所以没有爬取到。空白项大概占总量的2%,缺失值可以以业务知识或经验推测填充、可以同一指标的计算结果(均值、中位数、众数等)填充、也可以用回归、贝叶斯形式化方法的基于推理的工具或决策树归纳确定。这里简单采用均值填充。
现在只剩“X-X万/年”,“X-X千/月”,“X-X万/月”三种类型,我打算统一以“X-X千/月”表示。
先用筛选中的“文本筛选”选出所有以“万/年”表示薪资的项:
使用分列,以 ‘ - ’ 为分隔符号把salary分为两列,再对***薪水列使用LEFT和FIND结合,截取单位前的数字:
换算一下单位,取小数点后一位,“X-X万/年”就转变为“X-X千/月”了。
然后筛选出“X-X万/月”的项,同样分列---> 截取***薪数字--->换算单位:
***筛选出“X-X千/月”的项,分列---> 截取***薪数字,但不用换算单位了。***得到的bottom和top列是公式,用复制-->粘贴为“值”,将公式转化为数值。
出现了文本与数字交替的情况,
给每个单元格做一次数字运算,全部转换为数字。***得到统一单位和格式的***薪水和***薪水。
我们简单取***薪和***薪的平均数作为该岗位薪资。这是数据来源的缺陷,因为我们并不能知道应聘者实际能拿多少,这是薪水计算的误差。
刚才说用均值填充缺失值,均值计算为9.3,对avgsalary为0的项进行填充。薪资项的处理就完成了。
然后是info项,info项的格式类似
以 ‘ | ’ 为分隔符分列,但有的单位在此处填写了学历要求,有的单位没有,而是把学历要求写在JD中。导致education项中有一部分的数据错位为招聘人数。
我把薪资小于5千/月的填充为大专要求,小于15千/月的填充为本科要求,大于15千/月的填充为硕士要求,不过这样误差应该会非常大!
然后是city列,用数据透视表统计各城市出现的次数,降序。将小于10个招聘岗位的城市统一归入“其他城市”标签。
数据是否一致化:一致化指的是数据是否有统一的标准或命名。我们看一下表格中的positionName,非常不一致。
我们需要将数据分析强相关的职位挑选出来,不然会影响分析结果。
用关键词查找的思路,找出包含有数据分析、分析师、数据运营等关键词的岗位,排除掉“品牌专员”、“人力资源总监”、“会计”等非纯数据分析的岗位。用FIND函数和IF函数结合,1为包含,0不包含。将1过滤出来,这就是需要分析的最终数据。
以下是排除掉的岗位,约160个,占总岗位数的6.8%。
04 分析过程
因为主要数据均是文本格式,所以偏向汇总统计的计算。如果数值型的数据比较多,就会涉及到统计、比例等概念。如果有时间类数据,那么还会有趋势、变化的概念。
整体分析使用数据透视表完成,先利用数据透视表获得汇总型统计。
1)工作经验vs岗位数量
广州和上海的数据分析岗位远多于其他城市。3年以下时间段的缺口更大。无工作经验的应届毕业生似乎比1年以下经验的更吃香。但因为很多公司对学历的要求写在详细的岗位描述中,而不是直接选择的。所以很多显示为无工作经验的岗位,其实在岗位描述中是对工作年限进行了要求的,所以这里的统计很不准确。
2)企业规模vs岗位数量
来源【首席数据官】,更多内容/合作请关注「辉声辉语」公众号,送10G营销资料!
版权声明:本文内容来源互联网整理,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 jkhui22@126.com举报,一经查实,本站将立刻删除。