Always awake,

잔차의 성질 #기하편 (단순 선형 회귀) 본문

통계

잔차의 성질 #기하편 (단순 선형 회귀)

호재 P.B 2023. 5. 29. 16:48

본 포스팅에서는 이전 포스팅(잔차의 성질 (단순 선형 회귀)) 에서 다룬 잔차의 4가지 성질을 기하학적으로 이해해보는 내용을 작성하겠습니다

이전 포스팅과 마찬가지로 단순 선형 회귀에서 최소제곱법으로 계수를 추정하였을 때의 잔차의 성질에 대해 기술합니다.

 

단순 선형 회귀의 기하학적 이해

우선 단순 선형 회귀는 아래와 같습니다

$$ Y_i = \beta_0 + \beta_1 x_i + \epsilon_i  \ \ \ for \ i=1,2, ... , n$$

 

$$ Y_1 = \beta_0 + \beta_1 x_1 + \epsilon_1 \\ Y_2 = \beta_0 + \beta_1 x_2 + \epsilon_2 \\ ... \\ Y_n = \beta_0 + \beta_1 x_n + \epsilon_n$$

 

이는 Y벡터 $\vec{Y} = (Y_1, Y_2, ..., Y_n)$ 을 만들기 위해

1벡터 $\vec{1} = (1, 1, ..., 1)$ 와 x벡터 $\vec{x} = (x_1, x_2, ..., x_n)$ 에 각각 $\beta_0, \beta_1$ 을 곱하여 선형 결합한 것으로 생각할 수 있습니다.

 

일반적으로 Y 벡터는 1벡터와 x벡터의 sub-space 에 포함되지 않습니다

하지만 n 차원 공간에서 두 벡터 $\vec{1}, \vec{x}$를 선형 결합하여 벡터 $\vec{Y}$ 를 정확히 만드는 것은 어렵습니다. 왜냐하면 그림에서 보이는 2차원 sub-space (평면) 이 두 벡터 $\vec{1}, \vec{x}$ 를 선형 결합하여 만들 수 있는 벡터들의 집합공간이고, n 차원 공간에 존재하는 $\vec{Y}$ 가 해당 평면에 쏙 들어가 있는 경우는 드물 것이기 때문이죠.

그래서 해당 평면에 속한 벡터 중 $\vec{Y}$와 가장 유사한 벡터를 구하는 것을 목표로 삼아야 합니다. 

 

최소제곱법을 이용하였을 때 벡터들의 관계

이 때, "유사하다" 를 여러 형태로 정의할 수 있을텐데, 최소제곱법에서는 $\vec{Y}$와 $\vec{\hat{Y}}$ 의 거리 $|\vec{Y} - \vec{\hat{Y}}|$ 가 최소가 되는 $\vec{\hat{Y}}$ 를 구합니다. 

즉, 위의 그림처럼 $\vec{Y}$ 에서 sub-space 로 수선의 발을 내렸을 때의 벡터가 최소제곱법에서 추정한 $\vec{\hat{Y}}$ 가 되는 것입니다.

그리고 $\vec{Y}$ 에서 $\vec{\hat{Y}}$ 를 뺀 벡터가 잔차 벡터 $\vec{\hat{\epsilon}}$가 되는 것입니다.

 

이제 단순 선형 회귀에서 최소제곱법으로 계수를 추정하였을 때 기하학적으로 어떻게 표현되는지 알아보았으니, 이를 이용하여 잔차의 성질에 대해 증명해보겠습니다

 

잔차의 성질

단순 선형 회귀에서 위와 같이 최소제곱법으로 계수를 추정하였을 때, 잔차는 아래의 네 가지 성질을 갖습니다.

 

$$\sum_i^n{\hat{\epsilon_i}} = 0 \tag{1}$$

$$\sum_i^n{\hat{\epsilon_i}x_i} = 0 \tag{2} $$

$$\sum_i^n{\hat{\epsilon_i}\hat{Y_i}} = 0 \tag{3} $$

$$\sum_i^n{\hat{\epsilon_i}Y_i} = \sum_i^n{{\hat{\epsilon_i}}^2} \tag{4}$$

 

1번 증명

1번의 경우 좌항을 보면 잔차 벡터 $\vec{\hat{\epsilon}}$ 와 1 벡터 $\vec{1}$ 의 내적임을 알 수 있습니다.

최소제곱법을 이용하여 계수를 추정하면 잔차 벡터 $\vec{\hat{\epsilon}}$ 는 1벡터 $\vec{1}$ 와 x벡터 $\vec{x}$ 가 형성하는 sub-space 에 수직(orthogonal) 하므로 1 벡터 $\vec{1}$ 와도 수직입니다.

따라서 내적 값은 0이 되어 1번 증명이 완료됩니다.

2번 증명

2번의 경우 좌항을 보면 잔차 벡터 $\vec{\hat{\epsilon}}$ 과 x 벡터 $\vec{x}$ 의 내적임을 알 수 있습니다. 

최소제곱법을 이용하여 계수를 추정하면 잔차 벡터 $\vec{\hat{\epsilon}}$ 는 1벡터 $\vec{1}$ 와 x벡터 $\vec{x}$ 가 형성하는 sub-space 에 수직(orthogonal) 하므로 x 벡터 $\vec{x}$ 와도 수직입니다.

따라서 내적 값은 0이 되어 2번 증명이 완료됩니다.

3번 증명

3번의 경우 좌항을 보면 잔차 벡터 $\vec{\hat{\epsilon}}$ 과 Y 추정 벡터 $\vec{\hat{Y}}$ 의 내적임을 알 수 있습니다. 

Y 추정 벡터 잔차 벡터 $\vec{\hat{\epsilon}}$ 과 수직(orthogonal) 이므로 내적 값은 0 입니다.

따라서 3번 증명이 완료됩니다.

 

4번 증명

4번의 경우 좌항을 보면 잔차 벡터 $\vec{\hat{\epsilon}}$ 와 Y 벡터 $\vec{Y}$ 의 내적임을 알 수 있습니다.

내적 정리에 의해 아래와 같이 도출되므로 4번 증명이 완료됩니다.

 

4번 증명

 

마치며

최소제곱법으로 단순 선형 회귀 계수를 추정하였을 때, 잔차의 성질에 대해 기하학적으로 알아보았습니다. 

기하학적으로 생각하니 이해가 더 쉬운 것 같습니다

읽어주셔서 감사합니다 😉

 

 

글이 도움이 되셨다면 아래 클릭 한번 부탁드립니다 :)

반응형

'통계' 카테고리의 다른 글

잔차의 성질 (단순 선형 회귀)  (0) 2023.05.28
MSE를 최소화 하는 추정량 (단순 선형 회귀)  (0) 2023.05.13
조건부 확률과 기댓값  (0) 2021.12.26
신뢰성 분석  (1) 2021.10.11
로지스틱 회귀(Logistic Regression)  (3) 2021.10.10