一元线性回归方程的参数估计
这篇文章详细推导了一元线性回归方程的参数解,供新手朋友参考。 假定一元线性回归方程的具体形式为 y = a + b x (1) y=a+bx ag{1} y=a+bx(1) 现在,为确定参数 a , b a,b a,b进行了 n n n次观测,观测结果为: i 1 2 3 ⋯ n x x 1 x 2 x 3 ⋯ x n y y 1 y 2 y 3 ⋯ y n egin{array}{c|ccccc} i & ext{1} & ext{2} & ext{3} & cdots & ext{n} \ hline x & x_1 & x_2 & x_3 & cdots & x_n\ y & y_1 & y_2 & y_3 & cdots & y_n \ end{array} ixy1x1y12x2y23x3y3⋯⋯⋯nxnyn 参数估计即从这 n n n组数据中解出 a , b a,b a,b。由于观测不可避免的带有误差(观测仪器、人为或环境因素引起),故 n n n组方程 { y 1 = a + b x 1 y 2 = a + b x 2 ⋮ y n = a + b x n (2) left{ egin{array}{c} y_1=a+bx_1 \ y_2=a+bx_2 \ vdots \ y_n=a+bx_n \ end{array} ight. ag{2} ⎩⎪⎪⎪⎨⎪⎪⎪⎧y1=a+bx1y2=a+bx2⋮yn=a+bxn(2) 不相容(为矛盾方程组)。为消除矛盾并确定 a , b a,b a,b的最佳估值,可采用最小二乘法来求解,目标函数为 Q = ∑ i = 1 n ( y i − a − b x i ) 2 = m i n (3) Q=sum_{i=1}^n left ( y_i-a-bx_i ight ) ^2 = min ag{3} Q=i=1∑n(yi−a−bxi)2=min(3) 由于 Q Q Q是关于 a , b a,b a,b的凸函数(),根据凸函数极值特性,可知在 ∂ Q ∂ a = 0 frac{ partial Q}{partial a}=0 ∂a∂Q=0与 ∂ Q ∂ b = 0 frac{ partial Q}{partial b}=0 ∂b∂Q=0对应的 a , b a,b a,b处取得极小值(最小值)。 Q Q Q关于 a , b a,b a,b的偏导数如下 ∂ Q ∂ a = ∑ i = 1 n 2 ( y i − a − b x i ) ⋅ ( − 1 ) = 2 ∑ i = 1 n ( a + b x i − y i ) (4) frac{partial Q}{partial a}=sum_{i=1}^n 2 left (y_i-a-bx_i ight )cdot(-1) =2 sum_{i=1}^n left (a+bx_i-y_i ight ) ag{4} ∂a∂Q=i=1∑n2(yi−a−bxi)⋅(−1)=2i=1∑n(a+bxi−yi)(4) ∂ Q ∂ b = ∑ i = 1 n 2 ( y i − a − b x i ) ⋅ ( − x i ) = 2 ∑ i = 1 n x i ( a + b x i − y i ) (5) frac{partial Q}{partial b}=sum_{i=1}^n 2 left (y_i-a-bx_i ight )cdot(-x_i) =2 sum_{i=1}^n x_i left (a+bx_i-y_i ight ) ag{5} ∂b∂Q=i=1∑n2(yi−a−bxi)⋅(−xi)=2i=1∑nxi(a+bxi−yi)(5) 当令 ( 4 ) = 0 (4)=0 (4)=0可得: ∑ i = 1 n ( a + b x i − y i ) = 0 ⟹ n a + b ∑ i = 1 n x i − ∑ i = 1 n y i = 0 ⟹ a = y ˉ − b x ˉ (6) sum_{i=1}^n left( a+bx_i-y_i ight)=0 implies na+bsum_{i=1}^nx_i- sum_{i=1}^n y_i=0 implies a=ar{y}-bar{x} ag{6} i=1∑n(a+bxi−yi)=0⟹na+bi=1∑nxi−i=1∑nyi=0⟹a=yˉ−bxˉ(6) 令 ( 5 ) = 0 (5)=0 (5)=0并代入式 ( 6 ) (6) (6)可得: ∑ i = 1 n x i ( a + b x i − y i ) = 0 ⟹ a ∑ i = 1 n x i + b ∑ i = 1 n x i 2 − ∑ i = 1 n x i y i = 0 ⟹ b = ∑ i = 1 n ( x i y i − y ˉ x i ) ∑ i = 1 n ( x i 2 − x ˉ x i ) (7) sum_{i=1}^nx_i left (a+bx_i-y_i ight )=0 implies asum_{i=1}^n x_i +bsum_{i=1}^n x_i^2 - sum_{i=1}^n x_iy_i =0 implies b=frac{sum_{i=1}^n left(x_iy_i- ar{y}x_i ight)}{sum_{i=1}^n left(x_i^2-ar{x}x_i ight)} ag{7} i=1∑nxi(a+bxi−yi)=0⟹ai=1∑nxi+bi=1∑nxi2−i=1∑nxiyi=0⟹b=∑i=1n(xi2−xˉxi)∑i=1n(xiyi−yˉxi)(7) 再顾及 ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) = ∑ i = 1 n ( x i y i − y ˉ x i ) a n d ∑ i = 1 n ( x i − x ˉ ) 2 = ∑ i = 1 n ( x i 2 − x ˉ x i ) sum_{i=1}^n left( x_i-ar{x} ight) left( y_i-ar{y} ight)=sum_{i=1}^n left(x_iy_i- ar{y}x_i ight) and sum_{i=1}^n left( x_i-ar{x} ight)^2 =sum_{i=1}^n left( x_i^2-ar{x}x_i ight) i=1∑n(xi−xˉ)(yi−yˉ)=i=1∑n(xiyi−yˉxi)andi=1∑n(xi−xˉ)2=i=1∑n(xi2−xˉxi) 则一元线性回归方程的参数解为: b = ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) ∑ i = 1 n ( x i − x ˉ ) 2 (8) b=frac{sum_{i=1}^n left( x_i-ar{x} ight) left( y_i-ar{y} ight)}{sum_{i=1}^n left( x_i-ar{x} ight)^2} ag{8} b=∑i=1n(xi−xˉ)2∑i=1n(xi−xˉ)(yi−yˉ)(8) a = y ˉ − b x ˉ (9) a=ar{y}-bar{x} ag{9} a=yˉ−bxˉ(9) 以上。