MSE를 최소화 하는 추정량 (단순 선형 회귀)

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

Always awake,

MSE를 최소화 하는 추정량 (단순 선형 회귀) 본문

통계

MSE를 최소화 하는 추정량 (단순 선형 회귀)

호재 P.B 2023. 5. 13. 21:50

단순 선형 회귀(Simple Linear Regression) 에서 LSE 를 사용하여 추정한 추정치가 SSE 를 최소화 하는 추정치인지 증명하는 포스팅입니다 :)

서론

단순 선형 회귀(Simple Linear Regression) 식이 있습니다.

$$y_i = \beta_0 + \beta_1 x_i + \epsilon_i $$

선형 회귀 모델에서 가지고 있는 데이터($x_i$, $y_i$) 를 잘 설명하기 위해 사용하는 방법 중 가장 보편적인 것이 오차를 최소화 하는 것입니다. 오차의 제곱 합(SSE; Sum of Squared Error)을 최소화 하는 $\beta_0$, $\beta_1$ 의 추정치($\hat{\beta_0}$, $\hat{\beta_1}$)를 구하는 것이지요.

$$ SSE = \sum^n{(y_i - \hat{y_i})^2} $$

SSE (Sum of Squared Error)를 각각 편미분하여 값이 0이 되는 지점을 추정치로 구합니다. 이렇게 구하는 방식을 LSE(Least Square Estimate) 라고 합니다.

(SSE 는 $\beta_0$, $\beta_1$ 의 전역에 대해 오목(Concave) 함수 형태이어야 합니다.)

$$ \hat{\beta_0} = \bar{y} - \hat{\beta_1} \bar{x} \\ \hat{\beta_1} = \frac{S_{xy}}{S_{xx}} $$

$$ \small{S_{xx} = \sum^n{(x_i - \bar{x})^2}, S_{xy} = \sum^n{(x_i - \bar{x}) (y_i - \bar{y})}} $$

본 포스팅에서는 LSE를 이용한 추정치가 SSE 를 최소화 하는 추정치인지 증명해보는 시간을 가져보겠습니다 😊

증명

SSE 가 가장 작게 만들기 위한 방법이 LSE 라는 것을 증명하고자 합니다.

그래서 어떤 임의의 추정치 ($y_i^*$) 로 구한 SSE가 LSE 추정치($\hat{y_i}$)로 구한 SSE 보다 항상 같거나 큰지 증명하는 문제가 됩니다!

(임의의 추정치이기 때문에 LSE 추정치도 포함되는 개념입니다)

$$ pf) \sum^n{(y_i - y_i^*)^2} \ge \sum^n{(y_i - \hat{y_i})^2} \tag{1} $$

$$\hat{y_i} = \hat{\beta_0} + \hat{\beta_1} x_i \\ y_i^* = \beta_0^* + \beta_1^* x_i$$

(1) 번 식의 좌항에 집중해봅니다. 아래와 같이 제곱항 내부에 $\hat{y_i}$ 을 더하고 빼준 후 이를 전개해줍니다

$$ \begin{align*} \sum^n{(y_i - y_i^*)^2} &= \sum^n{(y_i - \hat{y_i} + \hat{y_i} - y_i^*)^2} \\ &= \sum^n{(y_i - \hat{y_i})^2 + \sum{(\hat{y_i} - y_i^*)}^2 + \sum^n{(y_i - \hat{y_i}) (\hat{y_i} - y_i^*)}} \tag{2} \end{align*} $$

(2) 번 식에서 가운데 항인 $\sum{(\hat{y_i} - y_i^*)}^2$ 는 제곱 합이므로 항상 0보다 같거나 큽니다. 즉, (2) 번 식은 아래의 관계를 갖습니다

$$ \begin{align*} \sum^n{(y_i - \hat{y_i})^2 + \sum{(\hat{y_i} - y_i^*)}^2 + \sum^n{(y_i - \hat{y_i}) (\hat{y_i} - y_i^*)}} \\ &\ge \sum^n{(y_i - \hat{y_i})^2 + \sum^n{(y_i - \hat{y_i}) (\hat{y_i} - y_i^*)}} \tag{3} \end{align*} $$

여기서 (2) 번, (3) 번 식을 엮으면 아래와 같이 정리할 수 있습니다.

$$ \begin{align*} \sum^n{(y_i - y_i^*)^2} &\ge \sum^n{(y_i - \hat{y_i})^2 + \sum^n{(y_i - \hat{y_i}) (\hat{y_i} - y_i^*)}} \end{align*} \tag{4} $$

우리의 목표인 (1) 번 식을 증명하기 위해서 이제 위의 (4) 번 식의 우항 중 두 번째 항의 값이 0 임을 증명하면 됩니다. 이를 (5) 번 식으로 지칭하겠습니다. 마지막 관문입니다!

$$ pf) \sum^n{(y_i - \hat{y_i}) (\hat{y_i} - y_i^*)} = 0 \tag{5} $$

(5) 번 식을 증명하기 위해서는 LSE 로 추정된 오차항 ($\hat{e_i}$)의 성질들을 이용하여야 합니다. (6), (7)번 식입니다.

(성질에 대한 증명은 아래에 첨부해두었으니 확인하시면 됩니다)

$$\hat{e_i} = y_i - \hat{y_i}$$

$$ \sum^n{\hat{e_i}} = 0 \tag{6} $$

$$ \sum^n{\hat{e_i} x_i} = 0 \tag{7} $$

자, 다시 (5) 번 식을 증명해봅시다. 좌항을 변형해봅니다.

$$ \begin{align*} \sum^n{(y_i - \hat{y_i}) (\hat{y_i} - y_i^*)} &= \sum^n{\hat{e_i} (\hat{y_i} - y_i^*)} \\ &= \sum^n{\hat{e_i} (\hat{y_i} - y_i^*)} \\ &= \sum^n{\hat{e_i} [(\hat{\beta_0} + \hat{\beta_1} x_i) - (\beta_0^* + \beta_1^* x_i)]} \\ &= \sum^n{\hat{e_i} [\hat{\beta_0} - \beta_0^* + (\hat{\beta_1} - \beta_1^*) x_i]} \\ &= \sum^n{[\hat{e_i}(\hat{\beta_0} - \beta_0^*) + (\hat{\beta_1} - \beta_1^*) \hat{e_i} x_i]} \\ &= (\hat{\beta_0} - \beta_0^*)\sum^n{\hat{e_i}} + (\hat{\beta_1} - \beta_1^*)\sum^n{\hat{e_i} x_i} \end{align*}$$

위의 (6), (7) 번 식에 의해 값이 0이 됩니다. (5) 번 식 증명이 완성되었습니다!

$$ \begin{align*} (\hat{\beta_0} - \beta_0^*)\sum^n{\hat{e_i}} + (\hat{\beta_1} - \beta_1^*)\sum^n{\hat{e_i} x_i} &= (\hat{\beta_0} - \beta_0^*) 0 + (\hat{\beta_1} - \beta_1^*) 0 \\ &= 0 \end{align*}$$

그러므로 아래 식이 완성됩니다.

해석하면 SSE 를 작게 만드는 추정치 중 가장 좋은 것은 LSE 를 이용하여 추정한 추정치입니다. 즉, SSE 를 최소화 하는 추정치는 LSE 를 이용하여 추정한 추정치입니다.

$$ \begin{align*} \sum^n{(y_i - y_i^*)^2} \ge \sum^n{(y_i - \hat{y_i})^2} \end{align*}$$

참고) LSE 오차항 성질

(6) 번 증명

$$ pf) \sum^n{\hat{e_i}} = 0 $$

아래를 이용해봅니다

$$ \begin{align*} \hat{y_i} &= \hat{\beta_0} + \hat{\beta_1} x_i \\ &= \bar{y} - \hat{\beta_1}\bar{x} + \hat{\beta_1} x_i \\ &= \bar{y} + \hat{\beta_1}(x_i - \bar{x}) \end{align*} $$

$$ \begin{align*} \sum^n{\hat{e_i}} &= \sum^n{(y_i - \hat{y_i})} \\ &= \sum^n{[y_i - [\bar{y} + \hat{\beta_1}(x_i - \bar{x})]]} \\ &= \sum^n{(y_i - \bar{y})} - \hat{\beta_1}\sum^n{(x_i - \bar{x})} = 0 - \hat{\beta_1} 0 = 0 \end{align*}$$

(7) 번 증명

$$ pf) \sum^n{\hat{e_i} x_i} = 0 $$

아래의 ... 은 위의 (6) 번 식의 증명과 반복되므로 생략하기 위함입니다

$$ \begin{align*} \sum^n{\hat{e_i} x_i} = ... &= \sum^n{[(y_i - \bar{y}) - \hat{\beta_1}(x_i - \bar{x})]} x_i \\ &= \sum^n{(y_i - \bar{y}) x_i} - \hat{\beta_1} \sum^n{(x_i - \bar{x}) x_i} \\ &= \sum^n{(y_i - \bar{y}) x_i} + \frac{S_{xy}}{S_{xx}} \sum^n{(x_i - \bar{x}) x_i}\end{align*} $$

여기서

$$ S_{xy} = \sum^n{(x_i - \bar{x}) (y_i - \bar{y})} = ... = \sum^n{(y_i - \bar{y}) x_i} \\ S_{xx} = \sum^n{(x_i - \bar{x})^2)} = ... = \sum^n{(x_i - \bar{x}) x_i} $$ 이므로

$$ \sum^n{(y_i - \bar{y}) x_i} - \frac{S_{xy}}{S_{xx}} \sum^n{(x_i - \bar{x}) x_i} = S_{xy} - \frac{S_{xy}}{S_{xx}} S_{xx} = 0 $$ 이 되어 증명이 완료됩니다

마치며

단순히 SSE 를 최소화 하는 방법으로 편미분을 통해 추정치를 구하는 방법만 알고 있었는데

미분을 사용하지 않고 증명하는 과정이 흥미로웠습니다. 그 과정에서 LSE 로 추정된 오차항의 성질들에 대해서도 정리할 수 있었습니다

긴 글 읽어주셔서 감사합니다~ 피드백은 언제나 환영입니다

▼ 글이 도움이 되셨다면 아래 클릭 한번 부탁드립니다 :) ▼

'통계' 카테고리의 다른 글

잔차의 성질 #기하편 (단순 선형 회귀) (0)	2023.05.29
잔차의 성질 (단순 선형 회귀) (0)	2023.05.28
조건부 확률과 기댓값 (0)	2021.12.26
신뢰성 분석 (1)	2021.10.11
로지스틱 회귀(Logistic Regression) (3)	2021.10.10

'통계' Related Articles

Always awake,

MSE를 최소화 하는 추정량 (단순 선형 회귀) 본문

MSE를 최소화 하는 추정량 (단순 선형 회귀)

서론

증명

참고) LSE 오차항 성질

(6) 번 증명

(7) 번 증명

마치며

'통계' 카테고리의 다른 글

티스토리툴바