일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 교란변수
- 회귀불연속설계
- 사영
- least square estimation
- 예제
- Python
- 단순선형회귀
- 네이버 뉴스
- Omitted Variable Bias
- 크롤링
- 통계
- 선형대수
- LU분해
- 잔차의 성질
- 누락편의
- 최소제곱법
- OVB
- confounder
- HTML
- simple linear regression
- rct
- Sharp RD
- 인과추론
- 머신러닝
- backdoor adjustment
- causal inference
- Instrumental Variable
- 인과 추론
- 교란 변수
- residuals
- Today
- Total
Always awake,
MSE를 최소화 하는 추정량 (단순 선형 회귀) 본문
단순 선형 회귀(Simple Linear Regression) 에서 LSE 를 사용하여 추정한 추정치가 SSE 를 최소화 하는 추정치인지 증명하는 포스팅입니다 :)
서론
단순 선형 회귀(Simple Linear Regression) 식이 있습니다.
$$y_i = \beta_0 + \beta_1 x_i + \epsilon_i $$
선형 회귀 모델에서 가지고 있는 데이터($x_i$, $y_i$) 를 잘 설명하기 위해 사용하는 방법 중 가장 보편적인 것이 오차를 최소화 하는 것입니다. 오차의 제곱 합(SSE; Sum of Squared Error)을 최소화 하는 $\beta_0$, $\beta_1$ 의 추정치($\hat{\beta_0}$, $\hat{\beta_1}$)를 구하는 것이지요.
$$ SSE = \sum^n{(y_i - \hat{y_i})^2} $$
SSE (Sum of Squared Error)를 각각 편미분하여 값이 0이 되는 지점을 추정치로 구합니다. 이렇게 구하는 방식을 LSE(Least Square Estimate) 라고 합니다.
(SSE 는 $\beta_0$, $\beta_1$ 의 전역에 대해 오목(Concave) 함수 형태이어야 합니다.)
$$ \hat{\beta_0} = \bar{y} - \hat{\beta_1} \bar{x} \\ \hat{\beta_1} = \frac{S_{xy}}{S_{xx}} $$
$$ \small{S_{xx} = \sum^n{(x_i - \bar{x})^2}, S_{xy} = \sum^n{(x_i - \bar{x}) (y_i - \bar{y})}} $$
본 포스팅에서는 LSE를 이용한 추정치가 SSE 를 최소화 하는 추정치인지 증명해보는 시간을 가져보겠습니다 😊
증명
SSE 가 가장 작게 만들기 위한 방법이 LSE 라는 것을 증명하고자 합니다.
그래서 어떤 임의의 추정치 ($y_i^*$) 로 구한 SSE가 LSE 추정치($\hat{y_i}$)로 구한 SSE 보다 항상 같거나 큰지 증명하는 문제가 됩니다!
(임의의 추정치이기 때문에 LSE 추정치도 포함되는 개념입니다)
$$ pf) \sum^n{(y_i - y_i^*)^2} \ge \sum^n{(y_i - \hat{y_i})^2} \tag{1} $$
$$\hat{y_i} = \hat{\beta_0} + \hat{\beta_1} x_i \\ y_i^* = \beta_0^* + \beta_1^* x_i$$
(1) 번 식의 좌항에 집중해봅니다. 아래와 같이 제곱항 내부에 $\hat{y_i}$ 을 더하고 빼준 후 이를 전개해줍니다
$$ \begin{align*} \sum^n{(y_i - y_i^*)^2} &= \sum^n{(y_i - \hat{y_i} + \hat{y_i} - y_i^*)^2} \\ &= \sum^n{(y_i - \hat{y_i})^2 + \sum{(\hat{y_i} - y_i^*)}^2 + \sum^n{(y_i - \hat{y_i}) (\hat{y_i} - y_i^*)}} \tag{2} \end{align*} $$
(2) 번 식에서 가운데 항인 $\sum{(\hat{y_i} - y_i^*)}^2$ 는 제곱 합이므로 항상 0보다 같거나 큽니다. 즉, (2) 번 식은 아래의 관계를 갖습니다
$$ \begin{align*} \sum^n{(y_i - \hat{y_i})^2 + \sum{(\hat{y_i} - y_i^*)}^2 + \sum^n{(y_i - \hat{y_i}) (\hat{y_i} - y_i^*)}} \\ &\ge \sum^n{(y_i - \hat{y_i})^2 + \sum^n{(y_i - \hat{y_i}) (\hat{y_i} - y_i^*)}} \tag{3} \end{align*} $$
여기서 (2) 번, (3) 번 식을 엮으면 아래와 같이 정리할 수 있습니다.
$$ \begin{align*} \sum^n{(y_i - y_i^*)^2} &\ge \sum^n{(y_i - \hat{y_i})^2 + \sum^n{(y_i - \hat{y_i}) (\hat{y_i} - y_i^*)}} \end{align*} \tag{4} $$
우리의 목표인 (1) 번 식을 증명하기 위해서 이제 위의 (4) 번 식의 우항 중 두 번째 항의 값이 0 임을 증명하면 됩니다. 이를 (5) 번 식으로 지칭하겠습니다. 마지막 관문입니다!
$$ pf) \sum^n{(y_i - \hat{y_i}) (\hat{y_i} - y_i^*)} = 0 \tag{5} $$
(5) 번 식을 증명하기 위해서는 LSE 로 추정된 오차항 ($\hat{e_i}$)의 성질들을 이용하여야 합니다. (6), (7)번 식입니다.
(성질에 대한 증명은 아래에 첨부해두었으니 확인하시면 됩니다)
$$\hat{e_i} = y_i - \hat{y_i}$$
$$ \sum^n{\hat{e_i}} = 0 \tag{6} $$
$$ \sum^n{\hat{e_i} x_i} = 0 \tag{7} $$
자, 다시 (5) 번 식을 증명해봅시다. 좌항을 변형해봅니다.
$$ \begin{align*} \sum^n{(y_i - \hat{y_i}) (\hat{y_i} - y_i^*)} &= \sum^n{\hat{e_i} (\hat{y_i} - y_i^*)} \\ &= \sum^n{\hat{e_i} (\hat{y_i} - y_i^*)} \\ &= \sum^n{\hat{e_i} [(\hat{\beta_0} + \hat{\beta_1} x_i) - (\beta_0^* + \beta_1^* x_i)]} \\ &= \sum^n{\hat{e_i} [\hat{\beta_0} - \beta_0^* + (\hat{\beta_1} - \beta_1^*) x_i]} \\ &= \sum^n{[\hat{e_i}(\hat{\beta_0} - \beta_0^*) + (\hat{\beta_1} - \beta_1^*) \hat{e_i} x_i]} \\ &= (\hat{\beta_0} - \beta_0^*)\sum^n{\hat{e_i}} + (\hat{\beta_1} - \beta_1^*)\sum^n{\hat{e_i} x_i} \end{align*}$$
위의 (6), (7) 번 식에 의해 값이 0이 됩니다. (5) 번 식 증명이 완성되었습니다!
$$ \begin{align*} (\hat{\beta_0} - \beta_0^*)\sum^n{\hat{e_i}} + (\hat{\beta_1} - \beta_1^*)\sum^n{\hat{e_i} x_i} &= (\hat{\beta_0} - \beta_0^*) 0 + (\hat{\beta_1} - \beta_1^*) 0 \\ &= 0 \end{align*}$$
그러므로 아래 식이 완성됩니다.
해석하면 SSE 를 작게 만드는 추정치 중 가장 좋은 것은 LSE 를 이용하여 추정한 추정치입니다. 즉, SSE 를 최소화 하는 추정치는 LSE 를 이용하여 추정한 추정치입니다.
$$ \begin{align*} \sum^n{(y_i - y_i^*)^2} \ge \sum^n{(y_i - \hat{y_i})^2} \end{align*}$$
참고) LSE 오차항 성질
(6) 번 증명
$$ pf) \sum^n{\hat{e_i}} = 0 $$
아래를 이용해봅니다
$$ \begin{align*} \hat{y_i} &= \hat{\beta_0} + \hat{\beta_1} x_i \\ &= \bar{y} - \hat{\beta_1}\bar{x} + \hat{\beta_1} x_i \\ &= \bar{y} + \hat{\beta_1}(x_i - \bar{x}) \end{align*} $$
$$ \begin{align*} \sum^n{\hat{e_i}} &= \sum^n{(y_i - \hat{y_i})} \\ &= \sum^n{[y_i - [\bar{y} + \hat{\beta_1}(x_i - \bar{x})]]} \\ &= \sum^n{(y_i - \bar{y})} - \hat{\beta_1}\sum^n{(x_i - \bar{x})} = 0 - \hat{\beta_1} 0 = 0 \end{align*}$$
(7) 번 증명
$$ pf) \sum^n{\hat{e_i} x_i} = 0 $$
아래의 ... 은 위의 (6) 번 식의 증명과 반복되므로 생략하기 위함입니다
$$ \begin{align*} \sum^n{\hat{e_i} x_i} = ... &= \sum^n{[(y_i - \bar{y}) - \hat{\beta_1}(x_i - \bar{x})]} x_i \\ &= \sum^n{(y_i - \bar{y}) x_i} - \hat{\beta_1} \sum^n{(x_i - \bar{x}) x_i} \\ &= \sum^n{(y_i - \bar{y}) x_i} + \frac{S_{xy}}{S_{xx}} \sum^n{(x_i - \bar{x}) x_i}\end{align*} $$
여기서
$$ S_{xy} = \sum^n{(x_i - \bar{x}) (y_i - \bar{y})} = ... = \sum^n{(y_i - \bar{y}) x_i} \\ S_{xx} = \sum^n{(x_i - \bar{x})^2)} = ... = \sum^n{(x_i - \bar{x}) x_i} $$ 이므로
$$ \sum^n{(y_i - \bar{y}) x_i} - \frac{S_{xy}}{S_{xx}} \sum^n{(x_i - \bar{x}) x_i} = S_{xy} - \frac{S_{xy}}{S_{xx}} S_{xx} = 0 $$ 이 되어 증명이 완료됩니다
마치며
단순히 SSE 를 최소화 하는 방법으로 편미분을 통해 추정치를 구하는 방법만 알고 있었는데
미분을 사용하지 않고 증명하는 과정이 흥미로웠습니다. 그 과정에서 LSE 로 추정된 오차항의 성질들에 대해서도 정리할 수 있었습니다
긴 글 읽어주셔서 감사합니다~ 피드백은 언제나 환영입니다
▼ 글이 도움이 되셨다면 아래 클릭 한번 부탁드립니다 :) ▼
'통계' 카테고리의 다른 글
잔차의 성질 #기하편 (단순 선형 회귀) (0) | 2023.05.29 |
---|---|
잔차의 성질 (단순 선형 회귀) (0) | 2023.05.28 |
조건부 확률과 기댓값 (0) | 2021.12.26 |
신뢰성 분석 (1) | 2021.10.11 |
로지스틱 회귀(Logistic Regression) (3) | 2021.10.10 |