통계

잔차의 성질 (단순 선형 회귀)

호재 P.B 2023. 5. 28. 16:55

본 포스팅에서는 단순 선형 회귀의 잔차(오차의 추정량) 의 네 가지 성질에 대해 정리합니다.

단, 계수 추정 방식이 최소제곱법(Least Sqaure Estimation) 인 경우 잔차는 아래의 성질을 갖습니다.

 

단순 선형 회귀 계수 추정

아래와 같이 단순 선형 회귀 식이 있습니다

$$Y_i = \beta_0 + \beta_1 x_i + \epsilon_i$$

최소제곱법을 이용하여 추정한 $\hat{\beta_0}$ 와 $\hat{\beta_1}$ 은 아래와 같습니다

$$ \hat{\beta_1} = \frac{S_{xY}}{S_{xx}} = \frac{\sum_i^n{(x_i - \bar{x})(Y_i - \bar{Y})}}{\sum_i^n{(x_i - \bar{x})^2}} $$

$$ \hat{\beta_0} = \bar{Y} - \hat{\beta_1} \bar{x} $$

 

추정 값은 아래와 같습니다

$$\begin{align*} \hat{Y_i} &= \hat{\beta_0} + \hat{\beta_1} x_i \\&= (\bar{Y} - \hat{\beta_1} \bar{x}) + \hat{\beta_1} x_i \\&= \bar{Y} + \hat{\beta_1} (x_i - \bar{x}) \end{align*}$$

 

참고로 추정값을 보면 추정한 회귀 선의 중요한 성질을 알 수 있습니다. 위의 식에서 $x_i = \bar{x}$ 인 경우 $\hat{Y_i} = \bar{Y}$ 입니다.

즉, 추정한 회귀선은 $x_i$의 평균($\bar{x}$) 과 $Y_i$ 의 평균($\bar{Y})$ 를 지납니다

 

잔차는 아래와 같습니다

$$\begin{align*} \hat{\epsilon_i} &= Y_i - \hat{Y_i} \\&= Y_i - [\bar{Y} + \hat{\beta_1} (x_i - \bar{x}) ] \\&= (Y_i - \bar{Y}) - \hat{\beta_1} (x_i - \bar{x}) \end{align*}$$

 

잔차의 성질

단순 선형 회귀에서 위와 같이 최소제곱법으로 계수를 추정하였을 때, 잔차는 아래의 네 가지 성질을 갖습니다.

 

$$\sum_i^n{\hat{\epsilon_i}} = 0 \tag{1}$$

$$\sum_i^n{\hat{\epsilon_i}x_i} = 0 \tag{2} $$

$$\sum_i^n{\hat{\epsilon_i}\hat{Y_i}} = 0 \tag{3} $$

$$\sum_i^n{\hat{\epsilon_i}Y_i} = \sum_i^n{{\hat{\epsilon_i}}^2} \tag{4}$$

 

1번 증명

$$\begin{align*} \sum_i^n{\hat{\epsilon_i}} &= \sum_i^n{[(Y_i - \bar{Y}) - \hat{\beta_1} (x_i - \bar{x})]} \\&=  \sum_i^n{(Y_i - \bar{Y})} - \hat{\beta_1} \sum_i^n{(x_i - \bar{x})} \\&= 0 -\hat{\beta_1} 0 \\&= 0   \end{align*}$$

 

2번 증명

$$\begin{align*} \sum_i^n{\hat{\epsilon_i}x_i} &= \sum_i^n{[(Y_i - \bar{Y}) - \hat{\beta_1} (x_i - \bar{x})]x_i} \\&= \sum_i^n{(Y_i - \bar{Y})x_i} - \hat{\beta_1}\sum_i^n{(x_i - \bar{x})x_i} \\&= S_{xY} - \hat{\beta_1}S_{xx} \\&= S_{xY} - \frac{S_{xY}}{S_{xx}} S_{xx} \\&= 0 \end{align*}$$   

 

3번 증명

$$\begin{align*} \sum_i^n{\hat{\epsilon_i}\hat{Y_i}} &= \sum_i^n{[\hat{\epsilon_i}[\bar{Y} + \hat{\beta_1} (x_i - \bar{x})]]} \\&= \bar{Y}\sum_i^n{\hat{\epsilon_i}} + \beta_1 \sum_i^n{\hat{\epsilon_i} x_i} - \bar{x} \sum_i^n{\hat{\epsilon_i}} \\&= 0 \end{align*} $$

 

1번 증명에 의해 1, 3 번째 항이 0이 되고, 2번 증명에 의해 2 번째 항이 0이 됩니다.

 

4번 증명

$$ \begin{align*} \sum_i^n{\hat{\epsilon_i}Y_i} &= \sum_i^n{\hat{\epsilon_i}(\hat{Y_i} + \hat{\epsilon_i})} \\&= \sum_i^n{\hat{\epsilon_i}\hat{Y_i}} + \sum_i^n{{\hat{\epsilon_i}}^2} \\&= \sum_i^n{{\hat{\epsilon_i}}^2} \end{align*} $$

 

3번 증명에 의해 1 번째 항이 0이 되므로 증명이 완료됩니다!

 

마치며

단순 선형 회귀 모형에서 잔차항의 네 가지 성질에 대해 알아보았습니다

다음 포스팅에서는 잔차의 4가지 성질을 기하학적으로 해석해보겠습니다 

읽어주셔서 감사합니다 😉

 

 

글이 도움이 되셨다면 아래 클릭 한번 부탁드립니다 :)

반응형