对于那些对数据,数据分析或数据科学感兴趣的人,提供一份可以利用业余时间完成的数据科学项目清单,一共14个!
项目分为三种类型:
可视化项目
最容易上手的就是数据可视化, 以下3个数据集可以用于创建一些有意思的的可视化效果并加到你的简历中。
1. 新冠病毒可视化
学习如何使用Plotly构建动态可视化数据,展示冠状病毒是如何在全球范围内传播的。Plotly很好用,它可以做动态可视化,好看且操作简单。
难易程度:⭐
数据集:
教程:
2. 澳洲大火数据可视化
2019-2020年的丛林大火季,也称为黑色夏天,由2019年6月开始的几场极端野火组成的。据维基百科统计,这场大火烧毁了约1,860万公顷的土地和5,900多座建筑物。
这是一个有趣的项目,可以利用Plotly或Matplotlib数据可视化工具来可视化野火的规模和对地理的影响。
难易程度:⭐
数据集:
3. 地表温度可视化
你是否怀疑过全球变暖的观点?创建一些数据可视化效果,显示地球表面温度如何随时间变化,并可以通过创建折线图或其他动画的Choropleth贴图来实现!也可以创建一个预测模型来预测未来五十年内地球的温度。
难易程度:⭐⭐
数据集:
很多人学习python,不知道从何学起。
很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手。
很多已经做案例的人,却不知道如何去学习更加高深的知识。
那么针对这三类人,我给大家提供一个好的学习平台温度数据分析,免费领取视频教程,电子书籍,以及课程的源代码!
QQ群:810735403
探索性数据分析项目
探索性数据分析(EDA),也称为数据挖掘,意思是数据分析过程中使用了多种技术来更好理解数据。
1. 纽约Airbnb数据挖掘
自2008年以来,Airbnb使游客和房东出行更方便,提出更多个性化的体验世界的方式。该数据集包含有关2019年纽约出租的信息以及包含其地理信息,价格,评论数量等。
可以分析的一些角度如下:
难易程度:⭐⭐⭐
数据集:
2. 哪些因素与员工离职和绩效有关
IBM公开了一个综合数据集,可以使用它来了解各种因素如何影响员工的流失率和满意度。一些变量包括教育程度,工作相关性温度数据分析,绩效评估和工作生活平衡程度等。
分析此数据集,找到任何确实影响员工满意度的变量,另外,还可以看看是否可以对变量进行重要程度排名。
难易程度:⭐
数据集:
3. 世界大学排名
你认为你的国家拥有世界上最好的大学吗?成为“最好”大学的衡量标准是什么?该数据集包含三个全球大学排名方式。使用此数据,你是否可以回答以下问题:
难易程度:⭐
数据集:
4. 饮酒与在校表现
喝酒会影响学生的成绩吗?如果不会,那有什么别的影响吗?这个数据是从中学数学和葡萄牙语课程的学生进行的一项调查中获得的。它包含几个变量,例如饮酒量,家庭人数,参与课外活动。
利用这些数据,挖掘学校成绩与各种因素之间的关系。另外,看看是否可以根据其他变量来预测学生的成绩!
难易程度:⭐
数据集:
5. 宠物小精灵数据挖掘
对所有游戏玩家来说,这是一个包含来自七代802个 Pokemon的信息数据集。试着回答以下几个问题!
难易程度:⭐
数据集:
6. 探索影响预期寿命的因素
世卫组织建立了一段时间内所有国家健康状况的数据集,其中包括预期寿命,成人死亡率等方面的统计数据。使用此数据集,探索各种变量之间的关系,预测对预期寿命的最大影响因素是什么?
请尝试回答以下问题:
难易程度:⭐
数据集:
预测模型 1. 能源消耗的时间序列预测
该数据集由美国区域传输组织PJM网站上的功耗数据组成,使用此数据集,查看是否可以构建时间序列模型来预测能耗。除此之外,还可以查看是否可以找到一天中每个小时的趋势,假日用电量以及长期趋势!
难易程度:⭐⭐⭐⭐
数据集:
2. 贷款预测
该数据集取自Analytics Vidhya,包括 615行和13列有关已批准和尚未批准的历史贷款信息。你是否可以创建一个模型来预测贷款是否会获批。
难易程度:⭐
数据集:
3. 二手车价格计算器
来源【首席数据官】,更多内容/合作请关注「辉声辉语」公众号,送10G营销资料!
版权声明:本文内容来源互联网整理,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 jkhui22@126.com举报,一经查实,本站将立刻删除。