누락 편의(OVB)
누락 편의에 대해 공부한 내용을 정리한 글입니다 :)
- 참고 서적 : Joshua D. Angrist, Jorn-Steffen Pischke. (2018). 고수들의 계량경제학. 시그마프레스 p.90 ~ p.91
누락 편의 개념
누락 편의란 통제가 필요한 변수가 통제되지 않았을 때 발생하는 편의(bias)를 의미합니다.
예를 들어, $X$가 $Y$에 미치는 인과 효과를 추정할 때, 교란 변수 $W$가 존재하는 경우를 생각해봅시다.
실제 $X$가 $Y$에 미치는 인과 효과는 교란 변수인 $W$를 통제(회귀식에 독립항으로 추가)한 상태에서 측정한 값입니다.
하지만, 어떠한 이유에 의해 우리는 교란 변수 $W$를 누락하게 되었다고 합시다.
- 설계 단계에서 $W$를 생각하지 못한 경우
- $W$가 교란 요인으로 작용할 것이라 알고 있지만, 측정하지 못한 경우(data로 존재하지 않음)
이렇게 변수 $W$가 누락된 모델을 model1이라고 해봅시다. 식은 아래와 같습니다.
$Y_i = \beta_0 + \beta_1X_i + \epsilon_{1i}$
그리고 교란 변수$W$를 잘 찾아내고 통제하여 회귀한 모델을 model2라고 해봅시다
$Y_i = \gamma_0 + \gamma_1X_i + \gamma_2W_i + \epsilon_{2i}$
$X_i$의 회귀 계수는 $Y_i$와의 상관관계를 의미하므로 각 model의 회귀 식에 따라 $X_i$의 회귀 계수를 해석하면
- model1에서의 $X_i$의 회귀 계수($\beta_1$) : 교란 변수 $W$를 통제하지 못한 상태에서 추정한 값이므로 non-causal association과 causal association이 합쳐진 값
- model2에서의 $X_i$의 회귀 계수($\gamma_1$) : 교란 변수 $W$를 통제한 상태에서 추정한 값이므로 causal assocication입니다.
즉, 실제 인과 효과는 교란 변수 $W$를 통제한 상태(model2)에서 추정한 $X_i$의 회귀 계수이지만, 교란 변수를 누락하게 되면(model1) 인과 효과를 잘못 추정하게 됩니다.
이것이 누락 편의(OVB; Omitted Variable Bias)입니다.
(통제해야할 변수를 누락하여 발생한 편의)
누락 편의 계산
실제로 누락 편의의 값과 어떻게 계산되는지 살펴봅시다.
위의 예시처럼 우리가 누락한 변수가 $W$라고 합시다.
여기서 누락 편의는 아래와 같습니다.
- $\beta_1 - \gamma_1$ (변수 누락으로 잘못 추정한 인과효과 - 실제 인과효과)
- 변수$W$를 포함하지 않은 모델의 $X_i$의 회귀 계수($\beta_1$)에서 변수$W$를 포함한 모델의 $X_i$의 회귀 계수($\gamma_1$)를 뺀 값입니다
이는 1) 누락 변수$W$와 $X$와의 관계 ($\pi_1$) , 2) 누락 변수$W$와 $Y$와의 관계 ($\gamma_2$)를 이용하여 계산할 수 있습니다
( OVB = $\beta_1 - \gamma_1 = \pi_1 \gamma_2$)
- $\pi_1$ : 누락변수를 포함하지 않은 회귀 모델(model1)의 독립항들을 누락 변수에 회귀 시킨 모델의 $X_i$의 회귀 계수
- $W_i = \pi_0 + \pi_1 X_i + \epsilon_{3i}$
- $\gamma_2$ : 누락변수를 포함한 모델(model2)에서의 누락 변수의 효과(회귀 계수)
- $Y_i = \gamma_0 + \gamma_1 X_i + \gamma_2 W_i + \epsilon_{2i}$
즉, 정리하면 누락 편의(OVB)는 $\beta_1 - \gamma_1 = \pi_1 \gamma_2$ 입니다.
그리고 이 식을 정리하면 $\beta_1 = \gamma_1 + \pi_1 \gamma_2$ 가 됩니다.
이 식은 "변수를 누락하여 추정한 값(좌항)은 변수를 포함해서 추정한 회귀 계수 + 누락 편의 값(우항)"를 의미합니다
누락 편의 계산 증명
그렇다면, $\beta_1 =\gamma_1 + \pi_1 \gamma_2$를 증명해보겠습니다
우선, 위에서 작성한 식을 정리해서 적어놓으면
- (model1: $W$를 누락한 모델) $Y_i = \beta_0 + \beta_1 X_i + \epsilon_{1i}$
- (model2: $W$를 포함한 모델) $Y_i = \gamma_0 + \gamma_1 X_i + \gamma_2 W_i + \epsilon_{2i}$
- (model1_sub: model1의 독립항을 누락 변수에 회귀시킨 모델) $W_i = \pi_0 + \pi_1 X_i + \epsilon_{3i}$
$\beta_1$은 OLS 회귀 추정치에 의해 다음과 같이 계산됩니다.
- $\beta_1 = \large\frac{Cov(X_i, Y_i)}{Var(X_i)}$
그리고 여기서 $Y_i$를 model2에 있는 회귀식으로 바꾸면 아래와 같이 변합니다.
- $\beta_1 = \large\frac{Cov(X_i, Y_i)}{Var(X_i)} = \frac{Cov(X_i, \gamma_0 + \gamma_1 X_i + \gamma_2 W_i + \epsilon_{2i})}{Var(X_i)}$
- $\large\frac{\gamma_1 Cov(X_i,X_i) + \gamma_2 Cov(X_i, W_i) + Cov(X_i, \epsilon_{2i}) }{Var(X_i)}$
- $\large\frac{\gamma_1 Cov(X_i,X_i)}{Var(X_i)} + \frac{\gamma_2 Cov(X_i, W_i)}{Var(X_i)} + \frac{Cov(X_i, \epsilon_{2i})}{Var(X_i)}$
여기서
- 첫 번째 항은 $Cov(X_i, X_i) = Var(X_i)$ 이므로 $\gamma_1$ 이 되고
- 두 번째 항은 $\frac{Cov(X_i, W_i)}{Var(X_i)} = \pi_1$ ($X_i$를 $W_i$에 회귀한 모델의 $X_i$의 회귀 계수) 이고
- 세 번째 항인 $Cov(X_i, \epsilon_{2i}) = 0$ (독립변수와 residuals은 독립) 이 됩니다.
따라서, 최종 정리하면 $\beta_1 = \gamma_1 + \gamma_2 \pi_1$ 이 됩니다.
▼ 글이 도움이 되셨다면 아래 클릭 한번 부탁드립니다 :) ▼