首席数据官

Hi, 请登录

“数据分析岗位”招聘情况分析!| Excel版

为了练习Excel技能,以及实践数据分析的流程。我用Web Scraper爬取了前程无忧4月16日全国发布的约2500条数据分析的职位信息,对数据分析岗位的招聘情况进行简单的分析。整个过程分为五个步骤:明确目的,观察数据,清洗数据,分析过程,得出结论。

01 明确目的

一切数据分析都是以业务为核心目的。本次项目的目的是通过数据分析岗位的招聘信息,包括地区分布、薪资水平、职位要求等,了解***数据分析岗位的情况。

02 观察数据

“数据分析岗位”招聘情况分析!| Execl版

首先看一下哪些字段数据可以去除。link为职位详情页链接招聘网站数据分析,是爬取二级页面需要的;Releasedate是职位发布时间,都为4月16日,这两列可以删除。

JD:职位描述、address:公司地址、companyProfile:公司简介、keyword:职位关键字

虽然JD中的职位描述比info中信息更准确,但此次初级分析不对文本进行挖掘,所以先隐藏。尽量不删除数据,而是隐藏,保证原始数据的完整性,以后可能会用到。

03 清洗数据

检查数据缺失:Excel中可以通过选取该列,在屏幕的右下角查看计数,以此判别有无缺失数据,缺失值很大程度上影响分析结果。如果某一字段缺失数据较多(超过50%),分析过程中要考虑是否删除该字段,因为缺失过多就没有业务意义了。

salary、companyType、Field、conmpanySize都存在一小部分的缺失,不影响实际分析。

检查数据是否有脏数据:脏数据包括乱码,错位招聘网站数据分析,重复值,未匹配数据,加密数据等。能影响到分析的都算脏数据,没有一致化也可以算。

数据标准结构:就是将特殊结构的数据进行转换和规整。

我们首先把 city、salary、info拆开。

“数据分析岗位”招聘情况分析!| Execl版

先将salary拆成***薪水和***薪水。比较麻烦的是薪水的表示方式有“XX元/天”,“X-X万/年”,“X-X千/月”,“X-X万/月”,还有空白项。

以天结算的可能是兼职,数量很少直接删除。

空白项是因为岗位链接是公司主页,而不是前程无忧的职位详情页,所以没有爬取到。空白项大概占总量的2%,缺失值可以以业务知识或经验推测填充、可以同一指标的计算结果(均值、中位数、众数等)填充、也可以用回归、贝叶斯形式化方法的基于推理的工具或决策树归纳确定。这里简单采用均值填充。

现在只剩“X-X万/年”,“X-X千/月”,“X-X万/月”三种类型,我打算统一以“X-X千/月”表示。

先用筛选中的“文本筛选”选出所有以“万/年”表示薪资的项:

“数据分析岗位”招聘情况分析!| Execl版

使用分列,以 ‘ - ’ 为分隔符号把salary分为两列,再对***薪水列使用LEFT和FIND结合,截取单位前的数字:

“数据分析岗位”招聘情况分析!| Execl版

换算一下单位,取小数点后一位,“X-X万/年”就转变为“X-X千/月”了。

“数据分析岗位”招聘情况分析!| Execl版

然后筛选出“X-X万/月”的项,同样分列---> 截取***薪数字--->换算单位:

需要分析数据的会计毕业论文题目_招聘网站数据分析_数据的分析知识网络图

“数据分析岗位”招聘情况分析!| Execl版

***筛选出“X-X千/月”的项,分列---> 截取***薪数字,但不用换算单位了。***得到的bottom和top列是公式,用复制-->粘贴为“值”,将公式转化为数值。

“数据分析岗位”招聘情况分析!| Execl版

出现了文本与数字交替的情况,

“数据分析岗位”招聘情况分析!| Execl版

给每个单元格做一次数字运算,全部转换为数字。***得到统一单位和格式的***薪水和***薪水。

“数据分析岗位”招聘情况分析!| Execl版

我们简单取***薪和***薪的平均数作为该岗位薪资。这是数据来源的缺陷,因为我们并不能知道应聘者实际能拿多少,这是薪水计算的误差。

“数据分析岗位”招聘情况分析!| Execl版

刚才说用均值填充缺失值,均值计算为9.3,对avgsalary为0的项进行填充。薪资项的处理就完成了。

然后是info项,info项的格式类似

以 ‘ | ’ 为分隔符分列,但有的单位在此处填写了学历要求,有的单位没有,而是把学历要求写在JD中。导致education项中有一部分的数据错位为招聘人数。

“数据分析岗位”招聘情况分析!| Execl版

我把薪资小于5千/月的填充为大专要求,小于15千/月的填充为本科要求,大于15千/月的填充为硕士要求,不过这样误差应该会非常大!

然后是city列,用数据透视表统计各城市出现的次数,降序。将小于10个招聘岗位的城市统一归入“其他城市”标签。

“数据分析岗位”招聘情况分析!| Execl版

数据是否一致化:一致化指的是数据是否有统一的标准或命名。我们看一下表格中的positionName,非常不一致。

“数据分析岗位”招聘情况分析!| Execl版

我们需要将数据分析强相关的职位挑选出来,不然会影响分析结果。

用关键词查找的思路,找出包含有数据分析、分析师、数据运营等关键词的岗位,排除掉“品牌专员”、“人力资源总监”、“会计”等非纯数据分析的岗位。用FIND函数和IF函数结合,1为包含,0不包含。将1过滤出来,这就是需要分析的最终数据。

“数据分析岗位”招聘情况分析!| Execl版

以下是排除掉的岗位,约160个,占总岗位数的6.8%。

“数据分析岗位”招聘情况分析!| Execl版

04 分析过程

需要分析数据的会计毕业论文题目_数据的分析知识网络图_招聘网站数据分析

因为主要数据均是文本格式,所以偏向汇总统计的计算。如果数值型的数据比较多,就会涉及到统计、比例等概念。如果有时间类数据,那么还会有趋势、变化的概念。

整体分析使用数据透视表完成,先利用数据透视表获得汇总型统计。

1)工作经验vs岗位数量

“数据分析岗位”招聘情况分析!| Execl版

广州和上海的数据分析岗位远多于其他城市。3年以下时间段的缺口更大。无工作经验的应届毕业生似乎比1年以下经验的更吃香。但因为很多公司对学历的要求写在详细的岗位描述中,而不是直接选择的。所以很多显示为无工作经验的岗位,其实在岗位描述中是对工作年限进行了要求的,所以这里的统计很不准确。

2)企业规模vs岗位数量

试看结束,如继续查看请付费↓↓↓↓
打赏0.5元才能查看本内容,立即打赏

来源【首席数据官】,更多内容/合作请关注「辉声辉语」公众号,送10G营销资料!

版权声明:本文内容来源互联网整理,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 jkhui22@126.com举报,一经查实,本站将立刻删除。

相关推荐

二维码
评论