일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- Python
- 교란변수
- OVB
- Sharp RD
- 인과 추론
- 머신러닝
- simple linear regression
- Omitted Variable Bias
- 사영
- 회귀불연속설계
- 최소제곱법
- rct
- 크롤링
- 통계
- LU분해
- causal inference
- 인과추론
- Instrumental Variable
- residuals
- least square estimation
- 잔차의 성질
- 선형대수
- 교란 변수
- confounder
- 단순선형회귀
- backdoor adjustment
- 누락편의
- 예제
- 네이버 뉴스
- HTML
- Today
- Total
Always awake,
잔차의 성질 (단순 선형 회귀) 본문
본 포스팅에서는 단순 선형 회귀의 잔차(오차의 추정량) 의 네 가지 성질에 대해 정리합니다.
단, 계수 추정 방식이 최소제곱법(Least Sqaure Estimation) 인 경우 잔차는 아래의 성질을 갖습니다.
단순 선형 회귀 계수 추정
아래와 같이 단순 선형 회귀 식이 있습니다
$$Y_i = \beta_0 + \beta_1 x_i + \epsilon_i$$
최소제곱법을 이용하여 추정한 $\hat{\beta_0}$ 와 $\hat{\beta_1}$ 은 아래와 같습니다
$$ \hat{\beta_1} = \frac{S_{xY}}{S_{xx}} = \frac{\sum_i^n{(x_i - \bar{x})(Y_i - \bar{Y})}}{\sum_i^n{(x_i - \bar{x})^2}} $$
$$ \hat{\beta_0} = \bar{Y} - \hat{\beta_1} \bar{x} $$
추정 값은 아래와 같습니다
$$\begin{align*} \hat{Y_i} &= \hat{\beta_0} + \hat{\beta_1} x_i \\&= (\bar{Y} - \hat{\beta_1} \bar{x}) + \hat{\beta_1} x_i \\&= \bar{Y} + \hat{\beta_1} (x_i - \bar{x}) \end{align*}$$
참고로 추정값을 보면 추정한 회귀 선의 중요한 성질을 알 수 있습니다. 위의 식에서 $x_i = \bar{x}$ 인 경우 $\hat{Y_i} = \bar{Y}$ 입니다.
즉, 추정한 회귀선은 $x_i$의 평균($\bar{x}$) 과 $Y_i$ 의 평균($\bar{Y})$ 를 지납니다.
잔차는 아래와 같습니다
$$\begin{align*} \hat{\epsilon_i} &= Y_i - \hat{Y_i} \\&= Y_i - [\bar{Y} + \hat{\beta_1} (x_i - \bar{x}) ] \\&= (Y_i - \bar{Y}) - \hat{\beta_1} (x_i - \bar{x}) \end{align*}$$
잔차의 성질
단순 선형 회귀에서 위와 같이 최소제곱법으로 계수를 추정하였을 때, 잔차는 아래의 네 가지 성질을 갖습니다.
$$\sum_i^n{\hat{\epsilon_i}} = 0 \tag{1}$$
$$\sum_i^n{\hat{\epsilon_i}x_i} = 0 \tag{2} $$
$$\sum_i^n{\hat{\epsilon_i}\hat{Y_i}} = 0 \tag{3} $$
$$\sum_i^n{\hat{\epsilon_i}Y_i} = \sum_i^n{{\hat{\epsilon_i}}^2} \tag{4}$$
1번 증명
$$\begin{align*} \sum_i^n{\hat{\epsilon_i}} &= \sum_i^n{[(Y_i - \bar{Y}) - \hat{\beta_1} (x_i - \bar{x})]} \\&= \sum_i^n{(Y_i - \bar{Y})} - \hat{\beta_1} \sum_i^n{(x_i - \bar{x})} \\&= 0 -\hat{\beta_1} 0 \\&= 0 \end{align*}$$
2번 증명
$$\begin{align*} \sum_i^n{\hat{\epsilon_i}x_i} &= \sum_i^n{[(Y_i - \bar{Y}) - \hat{\beta_1} (x_i - \bar{x})]x_i} \\&= \sum_i^n{(Y_i - \bar{Y})x_i} - \hat{\beta_1}\sum_i^n{(x_i - \bar{x})x_i} \\&= S_{xY} - \hat{\beta_1}S_{xx} \\&= S_{xY} - \frac{S_{xY}}{S_{xx}} S_{xx} \\&= 0 \end{align*}$$
3번 증명
$$\begin{align*} \sum_i^n{\hat{\epsilon_i}\hat{Y_i}} &= \sum_i^n{[\hat{\epsilon_i}[\bar{Y} + \hat{\beta_1} (x_i - \bar{x})]]} \\&= \bar{Y}\sum_i^n{\hat{\epsilon_i}} + \beta_1 \sum_i^n{\hat{\epsilon_i} x_i} - \bar{x} \sum_i^n{\hat{\epsilon_i}} \\&= 0 \end{align*} $$
1번 증명에 의해 1, 3 번째 항이 0이 되고, 2번 증명에 의해 2 번째 항이 0이 됩니다.
4번 증명
$$ \begin{align*} \sum_i^n{\hat{\epsilon_i}Y_i} &= \sum_i^n{\hat{\epsilon_i}(\hat{Y_i} + \hat{\epsilon_i})} \\&= \sum_i^n{\hat{\epsilon_i}\hat{Y_i}} + \sum_i^n{{\hat{\epsilon_i}}^2} \\&= \sum_i^n{{\hat{\epsilon_i}}^2} \end{align*} $$
3번 증명에 의해 1 번째 항이 0이 되므로 증명이 완료됩니다!
마치며
단순 선형 회귀 모형에서 잔차항의 네 가지 성질에 대해 알아보았습니다
다음 포스팅에서는 잔차의 4가지 성질을 기하학적으로 해석해보겠습니다
읽어주셔서 감사합니다 😉
▼ 글이 도움이 되셨다면 아래 클릭 한번 부탁드립니다 :) ▼
'통계' 카테고리의 다른 글
잔차의 성질 #기하편 (단순 선형 회귀) (0) | 2023.05.29 |
---|---|
MSE를 최소화 하는 추정량 (단순 선형 회귀) (0) | 2023.05.13 |
조건부 확률과 기댓값 (0) | 2021.12.26 |
신뢰성 분석 (1) | 2021.10.11 |
로지스틱 회귀(Logistic Regression) (3) | 2021.10.10 |