통계

MSE를 최소화 하는 추정량 (단순 선형 회귀)

호재 P.B 2023. 5. 13. 21:50

단순 선형 회귀(Simple Linear Regression) 에서 LSE 를 사용하여 추정한 추정치가 SSE 를 최소화 하는 추정치인지 증명하는 포스팅입니다 :)

 

 

서론

단순 선형 회귀(Simple Linear Regression) 식이 있습니다.

$$y_i = \beta_0 + \beta_1 x_i + \epsilon_i $$

 

선형 회귀 모델에서 가지고 있는 데이터($x_i$, $y_i$) 를 잘 설명하기 위해 사용하는 방법 중 가장 보편적인 것이 오차를 최소화 하는 것입니다. 오차의 제곱 합(SSE; Sum of Squared Error)을 최소화 하는 $\beta_0$, $\beta_1$ 의 추정치($\hat{\beta_0}$, $\hat{\beta_1}$)를 구하는 것이지요.

 

$$ SSE = \sum^n{(y_i - \hat{y_i})^2} $$

 

SSE (Sum of Squared Error)를 각각 편미분하여 값이 0이 되는 지점을 추정치로 구합니다. 이렇게 구하는 방식을 LSE(Least Square Estimate) 라고 합니다.

(SSE 는 $\beta_0$, $\beta_1$ 의 전역에 대해 오목(Concave)  함수 형태이어야 합니다.)

 

$$ \hat{\beta_0} = \bar{y} - \hat{\beta_1} \bar{x} \\ \hat{\beta_1} = \frac{S_{xy}}{S_{xx}} $$

 

$$ \small{S_{xx} = \sum^n{(x_i - \bar{x})^2}, S_{xy} = \sum^n{(x_i - \bar{x}) (y_i - \bar{y})}} $$ 

 

본 포스팅에서는 LSE를 이용한 추정치가 SSE 를 최소화 하는 추정치인지 증명해보는 시간을 가져보겠습니다 😊

 

증명

SSE 가 가장 작게 만들기 위한 방법이 LSE 라는 것을 증명하고자 합니다.

그래서 어떤 임의의 추정치 ($y_i^*$) 로 구한 SSE가 LSE 추정치($\hat{y_i}$)로 구한 SSE 보다 항상 같거나 큰지 증명하는 문제가 됩니다!  

(임의의 추정치이기 때문에 LSE 추정치도 포함되는 개념입니다)

$$ pf) \sum^n{(y_i - y_i^*)^2} \ge \sum^n{(y_i - \hat{y_i})^2} \tag{1} $$ 

$$\hat{y_i} = \hat{\beta_0} + \hat{\beta_1} x_i \\ y_i^* = \beta_0^* + \beta_1^* x_i$$

 

(1) 번 식의 좌항에 집중해봅니다. 아래와 같이 제곱항 내부에 $\hat{y_i}$ 을 더하고 빼준 후 이를 전개해줍니다

$$ \begin{align*} \sum^n{(y_i - y_i^*)^2} &= \sum^n{(y_i - \hat{y_i} + \hat{y_i} - y_i^*)^2} \\ &= \sum^n{(y_i - \hat{y_i})^2 + \sum{(\hat{y_i} - y_i^*)}^2 + \sum^n{(y_i - \hat{y_i}) (\hat{y_i} - y_i^*)}} \tag{2} \end{align*} $$

 

(2) 번 식에서 가운데 항인 $\sum{(\hat{y_i} - y_i^*)}^2$ 는 제곱 합이므로 항상 0보다 같거나 큽니다. 즉, (2) 번 식은 아래의 관계를 갖습니다

$$ \begin{align*} \sum^n{(y_i - \hat{y_i})^2 + \sum{(\hat{y_i} - y_i^*)}^2 + \sum^n{(y_i - \hat{y_i}) (\hat{y_i} - y_i^*)}} \\ &\ge \sum^n{(y_i - \hat{y_i})^2 + \sum^n{(y_i - \hat{y_i}) (\hat{y_i} - y_i^*)}} \tag{3} \end{align*} $$

 

여기서 (2) 번, (3) 번 식을 엮으면 아래와 같이 정리할 수 있습니다. 

$$ \begin{align*} \sum^n{(y_i - y_i^*)^2} &\ge \sum^n{(y_i - \hat{y_i})^2 + \sum^n{(y_i - \hat{y_i}) (\hat{y_i} - y_i^*)}} \end{align*} \tag{4} $$

 

우리의 목표인 (1) 번 식을 증명하기 위해서 이제 위의 (4) 번 식의 우항 중 두 번째 항의 값이 0 임을 증명하면 됩니다. 이를 (5) 번 식으로 지칭하겠습니다. 마지막 관문입니다!

$$ pf) \sum^n{(y_i - \hat{y_i}) (\hat{y_i} - y_i^*)} = 0 \tag{5} $$

 

(5) 번 식을 증명하기 위해서는 LSE 로 추정된 오차항 ($\hat{e_i}$)의 성질들을 이용하여야 합니다. (6), (7)번 식입니다.

(성질에 대한 증명은 아래에 첨부해두었으니 확인하시면 됩니다)

$$\hat{e_i} = y_i - \hat{y_i}$$

$$ \sum^n{\hat{e_i}} = 0 \tag{6} $$

$$ \sum^n{\hat{e_i} x_i} = 0 \tag{7} $$

 

자, 다시 (5) 번 식을 증명해봅시다. 좌항을 변형해봅니다.

$$ \begin{align*} \sum^n{(y_i - \hat{y_i}) (\hat{y_i} - y_i^*)} &= \sum^n{\hat{e_i} (\hat{y_i} - y_i^*)} \\ &= \sum^n{\hat{e_i} (\hat{y_i} - y_i^*)} \\ &= \sum^n{\hat{e_i} [(\hat{\beta_0} + \hat{\beta_1} x_i) - (\beta_0^* + \beta_1^* x_i)]} \\ &= \sum^n{\hat{e_i} [\hat{\beta_0} - \beta_0^* + (\hat{\beta_1} - \beta_1^*) x_i]} \\ &= \sum^n{[\hat{e_i}(\hat{\beta_0} - \beta_0^*) + (\hat{\beta_1} - \beta_1^*) \hat{e_i} x_i]} \\ &= (\hat{\beta_0} - \beta_0^*)\sum^n{\hat{e_i}} + (\hat{\beta_1} - \beta_1^*)\sum^n{\hat{e_i} x_i}  \end{align*}$$

 

위의 (6), (7) 번 식에 의해 값이 0이 됩니다. (5) 번 식 증명이 완성되었습니다!

$$ \begin{align*}  (\hat{\beta_0} - \beta_0^*)\sum^n{\hat{e_i}} + (\hat{\beta_1} - \beta_1^*)\sum^n{\hat{e_i} x_i} &= (\hat{\beta_0} - \beta_0^*) 0 + (\hat{\beta_1} - \beta_1^*) 0 \\ &= 0 \end{align*}$$

 

그러므로 아래 식이 완성됩니다.

해석하면 SSE 를 작게 만드는 추정치 중 가장 좋은 것은 LSE 를 이용하여 추정한 추정치입니다. 즉, SSE 를 최소화 하는 추정치는 LSE 를 이용하여 추정한 추정치입니다.  

$$ \begin{align*} \sum^n{(y_i - y_i^*)^2} \ge \sum^n{(y_i - \hat{y_i})^2} \end{align*}$$

 

참고) LSE 오차항 성질

(6) 번 증명

$$ pf) \sum^n{\hat{e_i}} = 0 $$

아래를 이용해봅니다

$$ \begin{align*} \hat{y_i} &= \hat{\beta_0} + \hat{\beta_1} x_i \\ &= \bar{y} - \hat{\beta_1}\bar{x} + \hat{\beta_1} x_i \\ &= \bar{y} + \hat{\beta_1}(x_i - \bar{x}) \end{align*} $$ 

 

$$ \begin{align*} \sum^n{\hat{e_i}} &= \sum^n{(y_i - \hat{y_i})} \\ &= \sum^n{[y_i - [\bar{y} + \hat{\beta_1}(x_i - \bar{x})]]} \\ &= \sum^n{(y_i - \bar{y})} - \hat{\beta_1}\sum^n{(x_i - \bar{x})} = 0 - \hat{\beta_1} 0 = 0 \end{align*}$$

(7) 번 증명

$$ pf) \sum^n{\hat{e_i} x_i} = 0  $$

 

아래의 ... 은 위의 (6) 번 식의 증명과 반복되므로 생략하기 위함입니다 

$$ \begin{align*} \sum^n{\hat{e_i} x_i} = ... &= \sum^n{[(y_i - \bar{y}) - \hat{\beta_1}(x_i - \bar{x})]} x_i \\ &= \sum^n{(y_i - \bar{y}) x_i} - \hat{\beta_1} \sum^n{(x_i - \bar{x}) x_i} \\ &= \sum^n{(y_i - \bar{y}) x_i} + \frac{S_{xy}}{S_{xx}} \sum^n{(x_i - \bar{x}) x_i}\end{align*} $$ 

 

여기서 

$$ S_{xy} = \sum^n{(x_i - \bar{x}) (y_i - \bar{y})} = ... = \sum^n{(y_i - \bar{y}) x_i} \\ S_{xx} = \sum^n{(x_i - \bar{x})^2)} = ... = \sum^n{(x_i - \bar{x}) x_i} $$ 이므로

 

$$ \sum^n{(y_i - \bar{y}) x_i} - \frac{S_{xy}}{S_{xx}} \sum^n{(x_i - \bar{x}) x_i} = S_{xy} - \frac{S_{xy}}{S_{xx}} S_{xx} = 0 $$ 이 되어 증명이 완료됩니다


마치며

 

단순히 SSE 를 최소화 하는 방법으로 편미분을 통해 추정치를 구하는 방법만 알고 있었는데

미분을 사용하지 않고 증명하는 과정이 흥미로웠습니다. 그 과정에서 LSE 로 추정된 오차항의 성질들에 대해서도 정리할 수 있었습니다

긴 글 읽어주셔서 감사합니다~ 피드백은 언제나 환영입니다

 

 

글이 도움이 되셨다면 아래 클릭 한번 부탁드립니다 :)

반응형