留学海外的小伙伴们多多少少都听说过如下一些统计和计量软件,如eviews, spss, sas, stata, r等等。用哪一款软件来完成自己定量研究论文的数据处理部分呢?本文将给大家做一个简要的介绍。
1、Stata
Stata 与 SPSS、SAS 并称为当今三大统计软件。与后者相比,Stata 体积小巧、简单易懂且功能强大。Stata 把 EViews, SPSS 的傻瓜式菜单和 SAS 的命令、编程完美结合起来,所以它一推出就受到了初学者和高级用户的普遍欢迎。Stata 不仅在统计方面功能齐全,其在计量分析领域更是有着深刻影响,以至于有人一言以蔽之:“ 关于学习 Stata 的意义,大家只需知道:目前,Stata 是计量经济学,特别是微观计量经济学的主流软件。”
简单易懂,可视化界面类似excel,操作方式多样化(可以通过程序的便携或者鼠标操作来实现操作);
数据管理能力比SAS弱一些。一般一次主要用于一个数据文件。同时,可以处理的单个数据文件收到内存大小的影响;
优势在于回归分析、Logistic分析、调差数据分析eviews 面板数据分析,但是在方差分析、多变量方法上较弱;
作图功能强大;
许多计量分析的程序网上都有丰富的共享资源。
一般用法。Stata以其简单易懂和功能强大受到初学者和高级用户的普遍欢迎。使用时可以每次只输入一个命令(适合初学者),也可以通过一个Stata程序一次输入多个命令(适合高级用户)。这样的话,即使发生错误,也较容易找出并加以修改。
数据管理。尽管Stata的数据管理能力没有SAS那么强大,它仍然有很多功能较强且简单的数据管理命令,能够让复杂的操作变得容易。Stata主要用于每次对一个数据文件进行操作,难以同时处理多个文件。随着Stata/SE的推出,现在一个Stata数据文件中的变量可以达到32,768,但是当一个数据文件超越计算机内存所允许的范围时,你可能无法分析它。
统计分析。Stata也能够进行大多数统计分析(回归分析,logistic回归,生存分析,方差分析,因子分析,以及一些多变量分析)。Stata最大的优势可能在于回归分析(它包含易于使用的回归分析特征工具),logistic回归(附加有解释logistic回归结果的程序,易用于有序和多元logistic回归)。Stata也有一系列很好的稳健方法,包括稳健回归,稳健标准误的回归,以及其他包含稳健标准误估计的命令。此外,在调查数据分析领域,Stata有着明显优势,能提供回归分析,logistic回归,泊松回归,概率回归等的调查数据分析。它的不足之处在于方差分析和传统的多变量方法(多变量方差分析,判别分析等)。
绘图功能。正如SPSS,Stata能提供一些命令或鼠标点击的交互界面来绘图。与SPSS不同的是它没有图形编辑器。在三种软件中,它的绘图命令的句法是最简单的,功能却最强大。图形质量也很好,可以达到出版的要求。另外,这些图形很好的发挥了补充统计分析的功能,例如,许多命令可以简化回归判别过程中散点图的制作。
总结。Stata较好地实现了使用简便和功能强大两者的结合。尽管其简单易学,它在数据管理和许多前沿统计方法中的功能还是非常强大的。用户可以很容易的下载到别人已有的程序,也可以自己去编写,并使之与Stata紧密结合。
Stata 与 SPSS、SAS 并称为当今三大统计软件。与后者相比,Stata 体积小巧、简单易懂且功能强大。Stata 把 EViews, SPSS 的傻瓜式菜单和 SAS 的命令、编程完美结合起来,所以它一推出就受到了初学者和高级用户的普遍欢迎。Stata 不仅在统计方面功能齐全,其在计量分析领域更是有着深刻影响,以至于有人一言以蔽之:“ 关于学习 Stata 的意义,大家只需知道:目前,Stata 是计量经济学,特别是微观计量经济学的主流软件。” 在 Stata 中既可以使用类似 EViews, SPSS 的傻瓜式菜单的操作方式,也可以使用类似 SAS 的命令、编程的操作方式。
2、SPSS
界面非常人性化, 类似excel,容易上手
数据文件最多4096个变量(相信小伙伴们的论文应该也用不了那么多的variables),记录数量由磁盘空间决定;
优势在于统计分析,例如方差分析,没有文件方法,弱点在于计量分析,缺乏对于调查数据的分析;
程序本身比较大;
并非真正的计量软件,主要为统计软件
一般用法。SPSS非常容易使用,故最为初学者所接受。它有一个可以点击的交互界面,能够使用下拉菜单来选择所需要执行的命令。它也有一个通过拷贝和粘贴的方法来学习其“句法”语言,但是这些句法通常非常复杂而且不是很直观。
数据管理。SPSS有一个类似于Excel的界面友好的数据编辑器,可以用来输入和定义数据(缺失值,数值标签等等)。它不是功能很强的数据管理工具(尽管SPS 11版增加了一些增大数据文件的命令,其效果有限)。SPSS也主要用于对一个文件进行操作,难以胜任同时处理多个文件。它的数据文件有4096个变量,记录的数量则是由你的磁盘空间来限定。
统计分析。SPSS也能够进行大多数统计分析(回归分析,logistic回归,生存分析,方差分析,因子分析,多变量分析,偏相关分析)。它的优势在于方差分析(SPSS能完成多种特殊效应的检验)和多变量分析(多元方差分析,因子分析,判别分析等),SPSS11.5版还新增了混合模型分析的功能。其缺点是没有稳健方法(无法完成稳健回归或得到稳健标准误),缺乏调查数据分析(SPSS12版增加了完成部分过程的模块)。
绘图功能。SPSS绘图的交互界面非常简单,一旦你绘出图形,你可以根据需要通过点击来修改。这种图形质量极佳,还能粘贴到其他文件中(Word 文档或Powerpoint等)。SPSS也有用于绘图的编程语句,但是无法产生交互界面作图的一些效果。这种语句比Stata语句难,但比SAS语句简单(功能稍逊)。
总结。SPSS致力于简便易行(其口号是“真正统计,确实简单”),并且取得了成功。但是如果你是高级用户,随着时间推移你会对它丧失兴趣。SPSS是制图方面的强手,由于缺少稳健和调查的方法,处理前沿的统计过程是其弱项。
3、SAS
功能强大,可以编程;
可以同时处理多个数据文件,处理变量非常多,可以画任何数据分析图;
优质在于方差分析,混合模型分析,多变量分析,比较欠缺的在于有序以及logistic分析,文件方法,以及调查数据分析(如泊松分布等);
比较难掌握,因为需要自己编织程序来处理分析数据,如果程序由bug,用户需要自己debug找出错误,但是这往往比较难;
占用磁盘空间非常大,大约2-3g;
还是那一句,对于没有编程基础的小伙伴可能入门比较难,容易打击积极性
一般用法。SAS由于其功能强大而且可以编程,很受高级用户的欢迎。也正是基于此,它是最难掌握的软件之一。使用SAS时,你需要编写SAS程序来处理数据,进行分析。如果在一个程序中出现一个错误,找到并改正这个错误将是困难的。
数据管理。在数据管理方面,SAS是非常强大的,能让你用任何可能的方式来处理你的数据。它包含SQL(结构化查询语言)过程,可以在SAS数据集中使用SQL查询。但是要学习并掌握SAS软件的数据管理需要很长的时间,在Stata或SPSS中,完成许多复杂数据管理工作所使用的命令要简单的多。然而,SAS可以同时处理多个数据文件,使这项工作变得容易。它可以处理的变量能够达到32,768个,以及你的硬盘空间所允许的最大数量的记录条数。
统计分析。SAS能够进行大多数统计分析(回归分析,logistic回归,生存分析,方差分析,因子分析,多变量分析)。SAS的最优之处可能在于它的方差分析eviews 面板数据分析,混合模型分析和多变量分析,而它的劣势主要是有序和多元logistic回归(因为这些命令很难),以及稳健方法(它难以完成稳健回归和其他稳健方法)。尽管支持调查数据的分析,但与Stata比较仍然是相当有限的。
绘图功能。在所有的统计软件中,SAS有最强大的绘图工具,由SAS/Graph模块提供。然而,SAS/Graph模块的学习也是非常专业而复杂,图形的制作主要使用程序语言。SAS 8虽然可以通过点击鼠标来交互式的绘图,但不象SPSS那样简单。
总结。SAS适合高级用户使用。它的学习过程是艰苦的,最初的阶段会使人灰心丧气。然而它还是以强大的数据管理和同时处理大批数据文件的功能,得到高级用户的青睐。
4、Eviews
界面人性化上相对较弱,使用前最好花一些时间熟悉每个命令操作的程序语言;
数据处理功能比较弱;
优势在于时间序列分析,但是其他的回归分析,例如面板数据分析、数据处理、统计分析都是比较弱的;
软件本身非常小,不占空间
Q1 如何数据导入?
eviews支持多种格式的数据导入,大体操作步骤:点击file-new-workfile.
Q2 面板数据,面板数据的输入又怎么做呢?
首先要明确是做平衡面板数据分析还是非平衡面板数据分析,先介绍前者:
1.准备平衡面板数据集(如xls.txt文件);
2. file/new/workfile 建立工作文件;
3. 选择unstructed/undated 填上时间序列数据的个数(observations);
4.选object/newobject/pool 输入横截面个体的ID;
5.导入数据集。导入数据后即可按照你的需要做各种面板数据分析
非平衡的,比如这个案例:
首先将数据在excel表中按企业排序,第一列为企业标识fcode,第二列为时间
1 1990
1 1991
1 1992
2 1990
2 1991
……
然后在eviews中分别通过object/new object/series 建立fcode 和year 两个序列,将上述已排序的数据导入。下一步,双击菜单栏下方的range,在出现的对话框中左边选择workfile structure type为dated panel, 在ID series后输入fcode, 在date series后输入year, 右边的对话框中保持上半部分不变,下半部分去掉所有的勾,然后点ok. 这样会自动生成dateid序列,建立面板数据。其他变量的数据按一般方法输入即可。
Q3 简单的描述性统计操作,有方法么?
单击某一序列,如"x",双击弹出该序列,在数据界面-view-graph可以进行作图操作,比如线图或者散点图。作图后右键-save graph to disk…选择保存路径即可。右键中还有很多可以对图形做调整的,无论是调整横轴还是添加文本,都需要先冻结作图窗口(freeze)才可操作。
如果是多个变量作图,直接在软件最上端的菜单里选择quick-graph,输入需要作图的变量,然后就和单序列一样操作。如果还想获得诸如均值这类的统计量,同样点击你需要知道的序列-view-descriptive statistics&test,即可得到均值,标准差,峰度等信息。
Q4 为什么要取对数,如何取对数?
平时在一些数据处理中,经常会把原始数据取对数后进一步处理。之所以这样做是基于对数函数在其定义域内是单调增函数,取对数后不会改变数据的相对关系,取对数作用主要有:
1.缩小数据的绝对数值,方便计算。例如,每个数据项的值都很大,许多这样的值进行计算可能对超过常用数据类型的取值范围,这时取对数,就把数值缩小了,例如TF-IDF计算时,由于在大规模语料库中,很多词的频率是非常大的数字。
2.取对数后,可以将乘法计算转换为加法计算。
某些情况下,在数据的整个值域中的在不同区间的差异带来的影响不同。也就是说,对数值小的部分差异的敏感程度比数值大的部分的差异敏感程度更高。
3.取对数之后不会改变数据的性质和相关关系,但压缩了变量的尺度,数据更加平稳,也消弱了模型的共线性、异方差性等。
取对数的操作:quick\ generate series\
输入新变量,比如 r=log( ),r就是取完对数后的序列
Q5 如何做相关分析?
在Eview中计算两个序列的的协方差、相关系数和交叉相关系数分别选用covariances、correlations、cross correlation命令(如果版本中没有correlations选项,可以先选择covariances analysis,然后再点correlations)。需要注意的是Eviews在计算协方差和方差时,自由不是样本个数N而不是N-1。
Q6 多元回归分析怎么做?
通过quick-esti
来源【首席数据官】,更多内容/合作请关注「辉声辉语」公众号,送10G营销资料!
版权声明:本文内容来源互联网整理,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 jkhui22@126.com举报,一经查实,本站将立刻删除。