我认为这里的“超级菜鸟”应该指的是从来没有接触过任何有关计算机,数学,统计学等领域的内容的小伙伴,可以自身的背景是纯文科生一枚谁说菜鸟不会数据分析 4,如果你真的是一个这样的超级菜鸟并且对于转行到数据分析有着强烈的热情,那么我觉得你学习数据分析将有很长的路要走。信心,毅力和选择一条明确的学习路线对于你来说是很重要的。
提升自信和保持毅力的方法我就不多说了,这种感性方面的东西主要靠大家的主观意念。下面我就来重点和大家说一说学习数据分析的学习路线应该怎样去走。
弄清概念,明确学习目的
在我看来,小白选手入门数据分析时,一定要先去了解数据分析具体的定义是什么,所谓数据分析,是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。
我们来一点一点去理解,定义里面讲到了“统计分析方法”,说白了就是拿来一组数据,我们根据需求,做出相应的数据整理和分类,等做的次数多了,我们就可以针对目前所整理的数据近似拟合出一个数学模型,对未来未知的数据进行预测,这就是统计学做的工作。
那么“开发数据的功能,发挥数据的作用”就是指把隐藏在一大批看来杂乱无章的数据中的信息集中和提炼出来,从而找出所研究对象的内在规律。在实际应用中,数据分析可帮助人们做出判断,以便采取适当行动。例如设计人员在开始一个新的设计以前,要通过广泛的设计调查,分析所得数据以判定设计方向,因此数据分析在工业设计中具有极其重要的地位。
因此,可以看出数据分析的学习和统计学是分不开的,由于日常生活中数据量的庞大,数据分析的学习还会依靠很多软件来完成,比如Python和R语言,这里就要求大家会使用这些软件,就是掌握一定的编程技能,有了前面两个的基础,就可以去看一些简单基础的数据分析算法,来初步了解数据分析。
综上,所需要学习的内容有:统计学知识,编程技能以及一些基本的数据分析方法。
统计学知识储备
首先初学者要去了解一下统计学的概念,统计是对数据的整理与分类的过程,因此学好数据分析需要掌握统计学的知识。我认为统计学这一部分的知识内容首先要学好基本的统计学理论基础知识,其次要和现实生活联系紧密才会对学习数据分析有所帮助,因为最终数据分析的工作接触最多的就是生活中真实的数据,在学习理论知识这一方面我推荐茆诗松的《概率论与数理统计》这一本书,学习这本书的初学者只需要高中数学的基础就可以,因为大家在高中的时候也接触过一些概统的内容,应该是简单求解概率值、数学期望等等。这本书里面写的很详细也很基础,排版也很合理,每一个定义多看几遍大家是可以看懂的。
这本书想必大家都听说过,在概统领域这本书的知名度很高,学习理论知识这一本书就足够了谁说菜鸟不会数据分析 4,里面还配有习题和详细的解答,有些习题难度比较大,不建议大家去做,大家把里面的例题弄明白就可以,下面给大家梳理一下这本书里面的一些知识点,这里面的知识点在数据分析的学习中比较常用,大家要多关注一下:
第一章
随机事件的定义、运算律,以及对应概率的运算。
第二章
随机变量及其分布,了解连续型随机变量和离散型随机变量的定义,掌握几个重要的分布:离散型分布:二项分布,泊松分布。连续型分布:正态分布,指数分布等。
第三章
多维随机变量及其分布,掌握随机变量的数字特征:数学期望、方差、标准差、相关系数等,会求多维随机变量的分布函数和概率密度函数。
第四章
学会几个重要的大数定律:伯努利大数定律,切比雪夫大数定律,辛钦大数定律,马尔可夫大数定律,掌握分布的特征函数和中心极限定理的内容。
第五章
了解样本,总体,样本容量的概念,由这些延伸到统计量的定义,掌握抽样分布定理的内容和三大抽样分布:卡方分布,t分布,F分布。
第六章
参数估计的类型:矩估计,极大似然估计,无偏估计,一致最小方差无偏估计,区间估计等。会计算某一个参数的某一估计类型。
第七章
假设检验的方法:t检验,F检验,一个或多个正太总体的检验,独立性检验。
第八章
方差分析的方法,线性与非线性回归,逻辑斯蒂回顾分析。
上面表格列出来的知识点是学习数据分析必备的理论基础部分,那么对于实践部分来说,大部分是利用Excel函数来计算平均值,方差,标准差等等,还有画一些直方图,折线图,饼状图等,熟练Excel的朋友会比较容易上手,不熟悉的朋友也不要紧,Excel的函数语句比较简单,可以边查资料边学习。
编程技能
学习数据分析需要掌握的编程语言有Python和R语言,这两门语言在处理数据方面都是十分好用的,下面我来为大家一一分析一下:
小白上手Python的学习方法:
Python是一种编程软件,是处理数据分析问题比较好的一门编程语言。初学者我为大家推荐下面这两本书,里面每一个板块的内容都写得很详细。
对于小白来说,首先就是Python环境的搭建,这里我们可以直接在Python的官网上找到相关的安装包,无论是Windows,Macbook还是Linux用户,官网上都有比较清楚的安装流程,在安装的过程中也会有相应的提示,大家按照提示来进行安装就好。
接着就是要正式学习Python了,先带大家来了解一下Python的知识体系:
Python的基础知识
基本数据结构:比如列表、元组、字典、集合、字符串、栈、队列、堆、树、图等等
Pythond 的进阶知识
对象的比较复制、参数的传递、迭代器、生成器、操作符重载、上下文管理器Python和其他语言的混合使用等等。
Python核心应用
数据分析与处理(数据分析师,产品,运营):包括NumPy、SciPy科学计算,Matplotlib绘图,Pandas数据索引与处理
人工智能:信息流个性化推荐、广告精准投放、计算机视觉、自然语言处理、智能搜索引擎、量化交易策略
服务器端开发:Django框架、Flask轻量级框架、用户登录验证、缓存、端到端监控等。
表格里面前两部分的内容需要看书上的例子,上面推荐到两本书源代码都很详细,可以自己在电脑上敲代码来进行巩固练习。关于第三部分重点来说一下数据分析的学习部分,后两个部分对于学有余力的朋友们来说可以了解一下。
对于使用Python学习数据分析,我认为可以分为以下几大块:
数据获取:
这里采用公开的数据源(比如百度,谷歌搜索等等)、网络爬虫和一些竞赛网站比如数学建模竞赛。
数据存储与提取:
包括数据的创建、增、删、改,数据查询、提取,数据排序与索引,数据的分类与组合。
数据清洗与预分析:
包括处理缺失数据、处理重复数据、处理数据不一致等情况。
数据分析:
包括描述性分析:描述结果是什么样的,需要统计学基础和科学计算的基础、探索性分析以及可视化:包括可视化分析与输出结论、预测性分析:预测未来数据,基于基本的算法模型实现预测。
数据报告:
包括明确任务目标、确定报告的逻辑以及选择合适的呈现形式。
- 以上这些内容的学习我可以给大家推荐两本书:
这两本书关于Python数据分析的内容讲解得十分全面,并且里面有很多经典实战的例子供大家参考,在实例中学习会帮助大家加深理解,加深印象。
新手入门R语言的学习策略:
R语言是我学习概统时经常会用到的一门语言,它是一门专业的统计编程语言,具它有着强大的数据分析功能和精准绘图功能,且开源免费并且有着丰富的扩展包和活跃的社区。R语言这些优质的特性,使得它始终在数据统计分析领域的SAS、STATA、SPSS、Matlab等同类软件中占据领先地位。与Python一样是学习数据分析必不可少的工具。
R语言我给初学者推荐的一本书是张敬信编写的《R语言编程—基于 tidyverse》tidyverse是一个连贯的数据包操作系统,用于数据操作,探索和可视化。
下面我来给大家说一说这本书的特点:
1、最新的技术
采用最新的R语言技术,甚至R包都用最新版本,因此大家会学到最新最前沿的R语言相关知识。
2、试图讲透编程语法
很多国内 R 语言编程书只是罗列堆砌编程语法,国外有不少优秀的 R 语言编程书,但翻译版往往就只是“直译 ”,只把表面意思用生硬的汉语表达出来,很难让初学者学透它们。这本书中的解决办法就是真正融入编程思维:编程思想引导,编程语法到底是怎么回事,应该用于何处、怎么使用。
3、精心准备实例
编程语法讲透彻还不够,必须配以合适的实例来演示,所以也请读者一定要将编程语法讲解与配套实例结合起来阅读,比起实例代码调试通过,更重要的是借助实例代码理解透彻该编程语法所包含的编程思维。
4、程序代码优雅、简洁高效
本书程序代码都是基于最新的tidyverse,自然就很优雅,简洁高效是因为能用向量化编程就不用逐元素,能用泛函式编程,就不用for循环。可以说,读者如果用这本书入门R语言,就会自动跳过写低级啰嗦代码的阶段,直接进入简洁明了较为高级的R语言代码阶段。
下面可以给大家看一个数据读写的实例讲解:
可以看出里面关于利用R语言读取Excel表格数据的操作讲解十分详细,代码格式规范,并且没有太多的伪代码,可以让读者直接根据书中的代码在自己的电脑上操作,方便快捷效率高。
数据分析课程推荐—贪
来源【首席数据官】,更多内容/合作请关注「辉声辉语」公众号,送10G营销资料!
版权声明:本文内容来源互联网整理,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 jkhui22@126.com举报,一经查实,本站将立刻删除。