首席数据官

Hi, 请登录

利用Excel对上海地区美食数据的分析

天下唯有美食不可辜负。作为在上海工作的“海漂”,生活已经如此艰辛了。既然买不起房子,那就轰轰烈烈地吃吧。然而对于吃货来讲,最大的难题来了:去哪里吃?吃什么?

去哪里吃包含了很大的信息量,包括哪里美食多,哪里的美食便宜,哪里交通更方便些?当然,如果有非常非常tasty的美食就要跋山涉水去寻找呀。吃什么就是哪里的美食种类多?下面我决定利用爬虫工具进行美食数据爬取,通过数据分析来找到我所需要的美食!

数据分析主要流程

上海餐饮数据分析

上海餐饮数据分析

本次数据分析的目的是利用美食数据分析:

上海地区哪个商圈店铺数量最多?上海地区哪个商圈消费水平最高?上海地区那个商圈光顾人数最多?

一、首先利用数据采集工具集搜客GooSeeker大众点评上海美食网页进行数据抓取。具体教程可以参考集搜客使用教程

抓取的原始数据如下:

上海餐饮数据分析

上海餐饮数据分析

通过观察这里的数据,我发现商铺名称后面都会跟着一个商圈,打算利用商圈进行将来的分类。

二、对数据进行清洗

数据清洗一般占据数据分析整个过程的60%,其中包括:

选择子集 选择进行数据分析感兴趣的几个列,将Excel中的A-L、T-V列进行隐藏

上海餐饮数据分析

上海餐饮数据分析

2.重命名列明 在爬取过程中已经设置好了列名上海餐饮数据分析,所以当前的表格不需要进行重命名。

3.删除重复值

4.对缺失值进行处理 通过筛选功能对缺失值进行处理,可以将缺失值替换为平均值上海餐饮数据分析,或者直接选择删除。

在清洗的过程中,发现商圈这一列的商圈种类特别多,而且存在以“区”来划分的情况,经过查找,发现这些数据的数量并不多,我选择了直接删除这些数据,并对商圈名字相似但表示同一个位置的名字进行统一处理。

5.数据一致化处理

这是工作量比较大的一步,首先将商铺名称这一列带括号的部分利用Excel数据选项卡中的分列功能进行拆分,将内部含有的位置剔除出来;然后利用替换功能,将商铺评级这一列的汉字替换成罗马数字进行表达。其次,利用Excel中的Find()、Right()、Left()、LEN()函数将点评数量、人均消费这两列的罗马数字提取出来。

在这些过程之后,出现了一个问题,点评数量这一列的数字下方还附带一个换行符,使得无法利用函数进行计算。所以,通过搜素引擎,找到解决办法如何清除Excel 单元格中的换行符

上海餐饮数据分析

上海餐饮数据分析

数据处理之后的表格如下

上海餐饮数据分析

上海餐饮数据分析

6.利用数据透视表进行数据分析

利用数据透视表分析点评数量,从而找出人流量最多的商圈。

上海餐饮数据分析

上海餐饮数据分析

通过上图就发现,虹桥地区的点评数量最多,其次就是静安寺、人名广场、徐家汇、淮海路地区,大学区、打浦桥、外滩、陆家嘴商圈的点评数量超过了10w条,说明这些地区人流量也是非常大的。如果你想去找人多的地方宣传自己的创意或者作品,这些地方是个不错的选择哦。

其次,利用数据透视表分析各个商圈的人均消费。对于平均消费的计算,我的标准是数据中商圈的商铺数量要大于10家。分析结果如下:

上海餐饮数据分析

上海餐饮数据分析

在这里就发现,外滩、陆家嘴的人均消费在400+,其中外滩的人均消费是849.2(惊讶)。对于这个数字我有很大的疑问:这个分析是否准确?于是双击849.2这个单元格,进入详细列表中。

上海餐饮数据分析

上海餐饮数据分析

利用数据选项卡中的数据分析功能,进行描述统计的计算:

上海餐饮数据分析

上海餐饮数据分析

发现最小人均消费为183元,最大人均消费为5495元!中位数为601.5元。

上海餐饮数据分析

上海餐饮数据分析

看来外滩才是有钱人的聚集地。如果想要找美食,我会避开这个地方,更应该去打浦桥、大学区这边人均消费低的地方。当然,淮海路虽然人均消费达到300+,还是有很多较便宜的店铺的。

再来看看店铺评级打分

上海餐饮数据分析

上海</body></html>

试看结束,如继续查看请付费↓↓↓↓
打赏0.5元才能查看本内容,立即打赏

来源【首席数据官】,更多内容/合作请关注「辉声辉语」公众号,送10G营销资料!

版权声明:本文内容来源互联网整理,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 jkhui22@126.com举报,一经查实,本站将立刻删除。

相关推荐

评论

  • 昵称 (必填)
  • 邮箱
  • 网址
二维码
评论