统计|如何观测两变量之间的相关系数及含义
本博文源于《商务统计》。旨在讲述如何从两个变量之间观察相关系数。
相关系数简介
-
对变量之间关系密切程度的度量 对两个变量之间线性相关的程度的度量称为简单相关系数 若相关系数是根据总体全部数据计算的,称为相关系数,记为 ρ
ho ρ
相关系数的计算公式
样本相关系数的计算公式 r = ∑ ( x − x ˉ ) ( y − y ˉ ) ∑ ( x − x ˉ ) 2 ⋅ ∑ ( y − y ˉ ) 2 r=frac{sum(x-ar{x})(y-ar{y})}{sqrt{sum(x-ar{x})^2·sum(y-ar{y})^2}} r=∑(x−xˉ)2⋅∑(y−yˉ)2 ∑(x−xˉ)(y−yˉ)
相关系数的意义取值
相关系数的性质
- r的取值范围是[-1,1]
- ∣ r ∣ = 1 |r|=1 ∣r∣=1,为完全相关;r=1,为完全正相关;r=-1,为完全负相关
- r=0,不存在线性相关关系
- − 1 ≤ r < 0 , 为 负 相 关 ; 0 < r ≤ 1 , 为 正 相 关 -1le{r}lt0,为负相关;0lt{r}le{1},为正相关 −1≤r<0,为负相关;0<r≤1,为正相关
- |r|越趋于1表示关系越密切,|r|越趋于0表示关系不密切
- 一般可按照三级划分: ∣ r ∣ < 0.4 为 低 度 线 性 相 关 , 0.4 ≤ ∣ r ∣ < 0.7 , 为 显 著 相 关 , 0.7 ≤ ∣ r ∣ < 1 , 高 度 线 性 相 关 . |r|<0.4为低度线性相关,0.4le{|r|}lt0.7,为显著相关,0.7le{|r|}lt1,高度线性相关. ∣r∣<0.4为低度线性相关,0.4≤∣r∣<0.7,为显著相关,0.7≤∣r∣<1,高度线性相关.
- r具有对称性。即x与y之间的相关系数和y与x之间的相关系数相等,即 r x y = r y x r_{xy}=r_{yx} rxy=ryx
- r数值大小与x和y的单位无关
- 仅仅是x与y之间线性关系的一个度量,它不能用于描述非线性关系。这意味着,r=0只表示两个变量之间存在线性相关关系,并不说明变量之间没有任何关系
- r虽然是两个变量之间线性关系的一个度量,却不一定意味着x与y一定有因果关系.
相关系数的假设检验步骤
提出假设
H 0 : ρ = 0 ; H 1 : ρ ≠ 0 H_0: ho=0;H_1: ho eq0 H0:ρ=0;H1:ρ=0 也就是原假设两变量之间无关系,备择假设存在关系,是不理会正相关还是负相关。因此这是双尾检验。
计算检验的统计量
t = r n − 2 1 − r 2 ∼ t ( n − 2 ) t=rsqrt{frac{n-2}{1-r^2}}sim{t(n-2)} t=r1−r2n−2 ∼t(n−2) n是样本数量,r就是这个。 r = ∑ ( x − x ˉ ) ( y − y ˉ ) ∑ ( x − x ˉ ) 2 ⋅ ∑ ( y − y ˉ ) 2 r=frac{sum(x-ar{x})(y-ar{y})}{sqrt{sum(x-ar{x})^2·sum(y-ar{y})^2}} r=∑(x−xˉ)2⋅∑(y−yˉ)2 ∑(x−xˉ)(y−yˉ)
确定显著性水平 α alpha α
-
若 ∣ t ∣ > t α 2 , 拒 绝 H 0 |t|gt{t_{frac{alpha}{2}}},拒绝H_0 ∣t∣>t2α,拒绝H0 若 ∣ t ∣ < t α 2 , 不 能 拒 绝 H 0 |t|lt{t_{frac{alpha}{2}}},不能拒绝H_0 ∣t∣<t2α,不能拒绝H0
例子:身高与体重的相关系数的假设检验
提出假设
H 0 : ρ = 0 ; H 1 : ρ ≠ 0 H_0: ho=0;H_1: ho eq0 H0:ρ=0;H1:ρ=0
计算检验的统计量
t = 0.7236 6 − 2 1 − 0.723 6 2 = 2.0967 t=0.7236sqrt{frac{6-2}{1-0.7236^2}}=2.0967 t=0.72361−0.723626−2 =2.0967
判断决策
总结
相关系数是衡量两个变量之间是否存在相关,如果接近于1那就相关,如果小于0那就负相关。采取的假设检验是t检验。