IBM® SPSS® Statistics Base - 高质量的数据分析工作帮您作更好的决策
组织可以使用IBM®SPSS®Statistics解决各种业务和研究问题.这一突破性的分析产品套件已在全球范围内使用了40多年。
与其他统计软件相比,SPSS Statistics更易于使用,总体拥有成本更低,更全面解决整个分析过程,从规划到数据收集再到分析,报告和部署。
所有类型的组织都依赖SPSS Statistics来帮助增加收入,战胜竞争对手,进行研究并做出更好的决策。 凭借数十年的内置专业知识和创新,它是可靠统计分析的首选。
IBM SPSS Statistics Base是SPSS Statistics软件套件的一部分,该套件由十几个提供专用功能的完全集成产品组成。 这种易于使用的全面软件包括许多不同的程序和检验,可帮助用户解决复杂的业务和研究挑战。
IBM SPSS Statistics可以帮助您:
与第三方应用程序更好地集成,包括与Microsoft Office更强的整合 通过提高生产力节省时间和精力:
IBM
SPSS
Statistics Base Edition 中包含以下核心功能。
码本
码本报告活动数据集中所有或指定变量和多响应集的字典信息(如变量名称、变量标签、值标签、缺失值)和汇总统计。对于名义和有序变量以及多响应集,汇总统计包括计数和百分比。对于刻度变量,汇总统计包括平均值、标准差和四分位数。
频率(F)
频率过程提供有助于描述多种类型的变量的统计和图形显示。频率过程是查看数据理想的开始位置。
对于频率报告和条形图,可以用升序或降序排列不同的值,也可以按其频率对类别进行排序。当变量具有许多不相同的值时,可提取频率报告。您可以使用频率(缺省值)或百分比标记图表。
描述性
"描述"过程为单个表中的若干变量显示单变量汇总统计,并计算标准化值(z 得分)。变量可以按其平均值(升序或降序)大小、按字母顺序或按您选择变量的顺序(缺省值)进行排序。
探索
"探索"过程既可以为所有个案也可以分别为个案组生成汇总统计和图形显示。使用"探索"过程有很多原因:数据过滤、离群值识别、描述、假设检验以及描述子群体(个案组)之间差异的特征。通过数据过滤可以得知您具有异常值、极值、数据中的缺口或其他特性。探索数据可以帮助确定您正考虑用于数据分析的统计方法是否合适。如果该方法要求数据呈正态分布,您可能通过探索得知需要进行转换数据。或者,您可能认为需要进行非参数检验。
交叉表过程形成二阶和多阶表,并提供了各种双向表检验和相关性测量。表的结构以及类别是否排序决定了要使用的检验或度量。
仅对双向表计算交叉表统计和相关性测量。如果指定一行、一列和一个层因子(控制变量),交叉表过程将为层因子(或两个或更多控制变量的值组合)的每个值形成一个关联统计和量度面板。例如,如果性别是一个已婚(是、否)与生活(生活充满激情、循规蹈矩或索然无味)相对照的表的层因子,那么女性的双向表结果将与男性的双向表结果分开计算,并打印成互相接续的面板格式。
ժҪ
"摘要"过程为一个或多个分组变量的类别中的变量计算子组统计。所有级别的分组变量要进行交叉制表。您可以选择显示统计的顺序。还将显示跨所有类别的每个变量的汇总统计。每个类别中的数据值可以列出也可以不列出。对于大型数据集,可以选择只列出前 n 个个案。
平均值(M)
平均值过程计算一个或多个自变量类别中因变量的子组平均值和相关的单变量统计。您也可以获得单向方差检验分析、 eta 和线性相关度相关检验。
OLAP 多维数据集
OLAP(联机分析处理)多维数据集过程计算一个或多个分类分组变量类别中连续摘要变量的总和、平均值和其他单变量统计。在表中为每个分组变量的每个类别创建单独的层。
t 检验
有三类 t 检验可用:
单因素 ANOVA
"单因素 ANOVA"过程按照单因子变量(自变量)生成对定量因变量的单向方差检验分析。方差分析用于检验数个平均值相等的假设。这种方法是双样本 t 检验的扩展。
除了确定平均值间存在着差值外,您可能还想知道哪些平均值之间存在着差值。比较平均值有两类检验方法:先验对比和事后检验。对比是在试验开始前进行的检验,而事后检验则是在试验结束后进行的。您也可以检验各个类别的趋势。
GLM 单变量分析
"GLM 单变量"过程通过一个或多个因子和/或变量,为一个因变量提供回归分析和方差分析。因子变量将总体划分成组。通过使用此"一般线性模型"过程,您可以检验关于其他变量对单个因变量的各个分组的平均值的效应的原假设。您可以调查因子之间的交互以及个别因子的效应,它们之中有些可能是随机的。另外,还可以包含协变量的效应以及协变量与因子的交互。对于回归分析,自变量(预测变量)指定为协变量。
双变量相关性
双变量相关性过程计算 Pearson 相关性系数、 Spearman 的 rho 和 Kendall 的 tau-b 及其显著性水平。相关性测量变量或等级顺序的相关方式。在计算相关系数之前,先过滤数据以找出离群值(离群值可能会导致误导性的结果)和线性关系的证据。 Pearson 相关性系数是一种线性相关性测量。两个变量可能良好相关,但是如果其关系不是线性的,那么 Pearson 相关性系数就不是适合度量其相关性的统计。
偏相关
"偏相关"过程计算偏相关系数,该系数在控制一个或多个附加变量的效应的同时描述两个变量之间的线性关系。相关是线性相关性测量。两个变量可以完全相关,但如果关系不是线性的,那么相关系数就不是适合度量它们相关性的统计。
距离(D)
此过程计算测量变量对或个案对之间相似性或非相似性(距离)的各种统计。随后,这些相似性或距离测量可与其他过程(例如因子分析、聚类分析或多维刻度)一起使用,以帮助分析复杂的数据集。
线性模型
线性模型根据目标与一个或多个预测变量间的线性关系来预测连续目标。
线性模型相对简单,用于评分的数学公式也易于解释。这些模型的属性比较好理解,与同一数据集上的其他模型类型(如神经网络或决策树)相比能够非常快速构建。
线性回归
"线性回归"估计包含一个或多个自变量的线性方程的系数,这些系数能最佳地预测因变量的值。例如,可尝试根据诸如年龄、教育程度和从业年数等自变量来预测销售人员的全年销售额(因变量)。
序数回归
使用序数回归可以在一组预测变量(可以是因子或协变量)上对多歧分序数响应的依赖性进行建模。序数回归的设计基于 McCullagh (1980, 1998) 的方法论;序数回归的过程在语法中称为 PLUM。
曲线估计
曲线估计过程为 11 种不同的曲线估计回归模型生成曲线估计回归统计和相关的图。将对每个因变量生成一个单独的模型。也可以将预测值、残差和预测区间保存为新变量。
部分最小二次方回归
部分最小二次方回归过程估计部分最小二次方(PLS,也称为"投影到潜在结构")回归模型。 PLS 是一种预测方法,可替代普通最小二乘 (OLS) 回归法、典型相关分析或结构化方程建模,当预测变量高度相关或预测变量数量超过个案数目时,此方法尤其有用。
最近邻元素分析
"最近邻元素分析"方法是根据个案间的相似性来对个案进行分类。在 machine learning 中spss数据分析z检验,它被开发为一种识别数据模式而不需要与任何存储的模式或个案完全匹配的方法。类似个案相互靠近,而不同个案相互远离。因此,通过两个个案之间的距离可以测量他们的非相似性。
判别分析
判别分析为组成员身份构建预测模型。该模型将基于可提供组间最佳区分的预测变量的线性组合,包含判别函数(或,对两个以上的组,包含一组判别函数)。这些函数根据组成员身份已知的个案样本生成;然后,可以将这些函数应用于具有预测变量测量值,但具有未知组成员身份的新个案。
因子分析
因子分析尝试识别出基础变量(或称因子)来解释在一组观察到的变量中体现的相关模式。因子分析通常用于数据降维,其目的是识别出少数几个因子来解释大多数在众多显性变量中所观测到的方差。因子分析也可用于生成关于因果机制的假设或过滤变量以用于随后的分析(例如:在执行线性回归分析之前识别共线性)。
选择聚类过程
可以使用二阶、系统或 K 平均值聚类分析过程来执行聚类分析。每个过程使用不同的算法来创建聚类,并且每个过程所具有的选项在其他过程中不可用。
二阶聚类分析
"二阶聚类分析"过程是一个探索工具,用来揭示数据集中的自然分组(或聚类),如果不揭示,这些分组是不明显的。此过程使用的算法有多个不错的特征使其区分于传统聚类技术:
系统聚类分析
此过程尝试根据选定的特征来识别相对均一的个案(变量)组,使用的算法是从单独聚类中的每个个案(或变量)开始对各聚类进行组合,直至剩下一个类别。您可以分析原始变量,也可以从多种标准化的转换中选择。
距离或相似性测量由"近似值"过程生成。每一阶段均显示统计,以帮助您选择最佳的解。
K 平均值聚类分析
此过程使用可以处理大量个案的算法,根据选定的特征尝试对相对均一的个案组进行标识。不过,该算法要求您指定聚类的个数。如果知道,您可以指定初始聚类中心。您可以选择对个案分类的两种方法之一,要么迭代地更新聚类中心,要么只进行分类。可以保存聚类成员、距离信息和最终聚类中心。还可以选择指定一个变量,使用该变量的值来标记个案输出。您还可以请求分析方差 F 统计。尽管这些统计是机会性的(此过程尝试形成不同的组),但统计的相对大小可提供有关各变量对组分离情况的贡献的信息。
非参数检验(N)
非参数检验对数据的基础分布做出最小假设。这些对话框中的可用检验可基于数据组织方式分组为三个较大的类别。
多重响应分析
有两个过程可以用于分析多二分集和多类别集。 "多响应频率"过程显示频率表。 "多响应交叉表"过程显示二维和三维交叉制表。使用任一过程前,都必须先定义多响应集。
报告结果
个案列表和描述统计是研究和显示数据的基本工具。可以通过数据编辑器或"摘要"过程获取个案列表,通过"频率"过程获取频率计数和描述统计,通过"平均值"过程获取子群体统计。以上每个都使用了为使信息更清晰而设计的格式。如果想要以不同的格式显示信息,可以使用"按行汇总"和"按列汇总"根据需要控制数据显示。
可靠性分析
可靠性分析允许您研究测量刻度的属性以及组成这些标度的项。 "可靠性分析"过程计算标度可靠性的众多常用度量,还提供关于标度中的各项之间关系的信息。类内相关系数可用来计算评分者间的可靠性估计。
多维刻度
多维刻度尝试寻找对象间或个案间一组距离测量的结构。该任务是通过将观察值分配到概念空间(通常为二维或三维)中的特定位置实现的,这样使空间中的点之间的距离尽可能与给定的非相似性相匹配。在很多情况下,这个概念空间的维度可以解释并可以用来进一步分析数据。
比率统计
"比率统计"过程提供了一个描述两个刻度变量间比率的汇总统计的综合列表。
ROC 曲线
对于按一个变量的两种类别对主体进行分类的设计,此过程是评估其分类设计性能的有用方法。
模拟
预测模型(例如线性回归)需要一组已知输入来预测结果或目标值。然而,在许多实际应用中,输入值通常是不确定的。模拟允许您考虑预测模型输入的不确定性,并且在存在不确定性的情况下评估各种模型结果的可能性。例如,您有一个包含材料成本作为输入的盈利模型,但由于市场波动在成本上存在不确定性。您可以使
来源【首席数据官】,更多内容/合作请关注「辉声辉语」公众号,送10G营销资料!
版权声明:本文内容来源互联网整理,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 jkhui22@126.com举报,一经查实,本站将立刻删除。