SPSS——相关分析——Pearson简单相关系数
简介
相关分析属于数据分析流程前端的探索性分析,探究变量间关系及性质,其结果在于指导下一步采取何种方法,是数据挖掘之前的基础工作;
场景
相关分析之前,有必要搞清楚变量的类型,根据具体类型选择合适的相关系数。Pearson相关系数适用于两变量的度量水平都是尺度数据,并且两变量的总体是正态分布或者近似正态分布的情况,还有说法认为其样本量应大于30,可供参考,在这些条件之外的,考虑选择spearman系数或者kendall系数。
相关分析和回归分析的联系和区别
-
相关分析是回归分析的前提 回归分析是相关分析的拓展
步骤
相关图分析
相关系数
相关系数是对变量之间相关关系密切程度的度量
相关系数的性质
相关系数的划分
Pearson简单相关系数
在统计学中,皮尔逊积矩相关系数(Pearson product-moment correlation coefficient),有时也简称为PMCC,通常用r或是ρ表示,是用来度量两个变量X和Y之间的相互关系(线性相关)的,取值范围在[-1,+1]之间。皮尔逊积矩相关系数在学术研究中被广泛应用来度量两个变量线性相关性的强弱,它是由Karl Pearson在19世纪80年代从Francis Galton介绍的想法基础发展起来的,但是发展后原想法相似但略有不同的,这种相关系数常被称为“Pearson的r”。
Pearson线性相关系数只是许多可能中的一种情况,为了使用Pearson线性相关系数必须假设数据是成对地从正态分布中取得的,并且数据至少在逻辑范畴内必须是等间距的数据。如果这两条件不符合,一种可能就是采用Spearman秩相关系数来代替Pearson线性相关系数。
定义
数学特性
几何解释
对于相对中心性的数据(例如,一组已经通过样本均值转换为均值为0的数据),相关系数可以看做是由两随机变量样本绘出的两个向量之间夹角的余弦值。
假设检验
相关系数的显著性检验的目的是为了检验两个变量之间样本相关系数r(r≠0)与一个相关系数=0的已知总体之间的差别是否是由于抽样误差所产生的,如果差别有统计学意义,则说明两个变量之间存在相关关系。在已经检验两个变量存在相关关系的情况下,相关系数的绝对值越趋近于1,则两个变量相关关系越密切,越趋近于0,则两个变量相关关系越不密切。
基于数学近似的方法
H0:两样本服从正态分布,且不相关
准确服从高斯分布的数据
菜单
数据集 car_sales.sav
参数设置
简单散点图
结果分析
散点图
相关性
Person相关系数为-0.17,且显著性水平为0.837,不相关的假设成立