统计|如何观测两变量之间的相关系数及含义

本博文源于《商务统计》。旨在讲述如何从两个变量之间观察相关系数。

相关系数简介

    对变量之间关系密切程度的度量 对两个变量之间线性相关的程度的度量称为简单相关系数 若相关系数是根据总体全部数据计算的,称为相关系数,记为 ρ ho ρ

相关系数的计算公式

样本相关系数的计算公式 r = ∑ ( x − x ˉ ) ( y − y ˉ ) ∑ ( x − x ˉ ) 2 ⋅ ∑ ( y − y ˉ ) 2 r=frac{sum(x-ar{x})(y-ar{y})}{sqrt{sum(x-ar{x})^2·sum(y-ar{y})^2}} r=∑(x−xˉ)2⋅∑(y−yˉ)2 ∑(x−xˉ)(y−yˉ)

相关系数的意义取值

相关系数的性质

  1. r的取值范围是[-1,1]
  2. ∣ r ∣ = 1 |r|=1 ∣r∣=1,为完全相关;r=1,为完全正相关;r=-1,为完全负相关
  3. r=0,不存在线性相关关系
  4. − 1 ≤ r < 0 , 为 负 相 关 ; 0 < r ≤ 1 , 为 正 相 关 -1le{r}lt0,为负相关;0lt{r}le{1},为正相关 −1≤r<0,为负相关;0<r≤1,为正相关
  5. |r|越趋于1表示关系越密切,|r|越趋于0表示关系不密切
  6. 一般可按照三级划分: ∣ r ∣ < 0.4 为 低 度 线 性 相 关 , 0.4 ≤ ∣ r ∣ < 0.7 , 为 显 著 相 关 , 0.7 ≤ ∣ r ∣ < 1 , 高 度 线 性 相 关 . |r|<0.4为低度线性相关,0.4le{|r|}lt0.7,为显著相关,0.7le{|r|}lt1,高度线性相关. ∣r∣<0.4为低度线性相关,0.4≤∣r∣<0.7,为显著相关,0.7≤∣r∣<1,高度线性相关.
  7. r具有对称性。即x与y之间的相关系数和y与x之间的相关系数相等,即 r x y = r y x r_{xy}=r_{yx} rxy=ryx
  8. r数值大小与x和y的单位无关
  9. 仅仅是x与y之间线性关系的一个度量,它不能用于描述非线性关系。这意味着,r=0只表示两个变量之间存在线性相关关系,并不说明变量之间没有任何关系
  10. r虽然是两个变量之间线性关系的一个度量,却不一定意味着x与y一定有因果关系.

相关系数的假设检验步骤

提出假设

H 0 : ρ = 0 ; H 1 : ρ ≠ 0 H_0: ho=0;H_1: ho eq0 H0:ρ=0;H1:ρ=0 也就是原假设两变量之间无关系,备择假设存在关系,是不理会正相关还是负相关。因此这是双尾检验。

计算检验的统计量

t = r n − 2 1 − r 2 ∼ t ( n − 2 ) t=rsqrt{frac{n-2}{1-r^2}}sim{t(n-2)} t=r1−r2n−2 ∼t(n−2) n是样本数量,r就是这个。 r = ∑ ( x − x ˉ ) ( y − y ˉ ) ∑ ( x − x ˉ ) 2 ⋅ ∑ ( y − y ˉ ) 2 r=frac{sum(x-ar{x})(y-ar{y})}{sqrt{sum(x-ar{x})^2·sum(y-ar{y})^2}} r=∑(x−xˉ)2⋅∑(y−yˉ)2 ∑(x−xˉ)(y−yˉ)

确定显著性水平 α alpha α

    若 ∣ t ∣ > t α 2 , 拒 绝 H 0 |t|gt{t_{frac{alpha}{2}}},拒绝H_0 ∣t∣>t2α,拒绝H0 若 ∣ t ∣ < t α 2 , 不 能 拒 绝 H 0 |t|lt{t_{frac{alpha}{2}}},不能拒绝H_0 ∣t∣<t2α,不能拒绝H0

例子:身高与体重的相关系数的假设检验

提出假设

H 0 : ρ = 0 ; H 1 : ρ ≠ 0 H_0: ho=0;H_1: ho eq0 H0:ρ=0;H1:ρ=0

计算检验的统计量

t = 0.7236 6 − 2 1 − 0.723 6 2 = 2.0967 t=0.7236sqrt{frac{6-2}{1-0.7236^2}}=2.0967 t=0.72361−0.723626−2 =2.0967

判断决策

总结

相关系数是衡量两个变量之间是否存在相关,如果接近于1那就相关,如果小于0那就负相关。采取的假设检验是t检验。

经验分享 程序员 微信小程序 职场和发展