누락 편의(OVB)

인과추론(Causal Inference)

호재 P.B 2021. 7. 17. 23:02

누락 편의에 대해 공부한 내용을 정리한 글입니다 :)

참고 서적 : Joshua D. Angrist, Jorn-Steffen Pischke. (2018). 고수들의 계량경제학. 시그마프레스 p.90 ~ p.91

누락 편의 개념

누락 편의란 통제가 필요한 변수가 통제되지 않았을 때 발생하는 편의(bias)를 의미합니다.

예를 들어, $X$가 $Y$에 미치는 인과 효과를 추정할 때, 교란 변수 $W$가 존재하는 경우를 생각해봅시다.

실제 $X$가 $Y$에 미치는 인과 효과는 교란 변수인 $W$를 통제(회귀식에 독립항으로 추가)한 상태에서 측정한 값입니다.

하지만, 어떠한 이유에 의해 우리는 교란 변수 $W$를 누락하게 되었다고 합시다.

이렇게 변수 $W$가 누락된 모델을 model1이라고 해봅시다. 식은 아래와 같습니다.

$Y_i = \beta_0 + \beta_1X_i + \epsilon_{1i}$

그리고 교란 변수$W$를 잘 찾아내고 통제하여 회귀한 모델을 model2라고 해봅시다

$Y_i = \gamma_0 + \gamma_1X_i + \gamma_2W_i + \epsilon_{2i}$

$X_i$의 회귀 계수는 $Y_i$와의 상관관계를 의미하므로 각 model의 회귀 식에 따라 $X_i$의 회귀 계수를 해석하면

model1에서의 $X_i$의 회귀 계수($\beta_1$) : 교란 변수 $W$를 통제하지 못한 상태에서 추정한 값이므로 non-causal association과 causal association이 합쳐진 값
model2에서의 $X_i$의 회귀 계수($\gamma_1$) : 교란 변수 $W$를 통제한 상태에서 추정한 값이므로 causal assocication입니다.

즉, 실제 인과 효과는 교란 변수 $W$를 통제한 상태(model2)에서 추정한 $X_i$의 회귀 계수이지만, 교란 변수를 누락하게 되면(model1) 인과 효과를 잘못 추정하게 됩니다.

이것이 누락 편의(OVB; Omitted Variable Bias)입니다.

(통제해야할 변수를 누락하여 발생한 편의)

실제로 누락 편의의 값과 어떻게 계산되는지 살펴봅시다.

위의 예시처럼 우리가 누락한 변수가 $W$라고 합시다.

여기서 누락 편의는 아래와 같습니다.

$\beta_1 - \gamma_1$ (변수 누락으로 잘못 추정한 인과효과 - 실제 인과효과)
변수$W$를 포함하지 않은 모델의 $X_i$의 회귀 계수($\beta_1$)에서 변수$W$를 포함한 모델의 $X_i$의 회귀 계수($\gamma_1$)를 뺀 값입니다

이는 1) 누락 변수$W$와 $X$와의 관계 ($\pi_1$) , 2) 누락 변수$W$와 $Y$와의 관계 ($\gamma_2$)를 이용하여 계산할 수 있습니다

( OVB = $\beta_1 - \gamma_1 = \pi_1 \gamma_2$)

$\pi_1$ : 누락변수를 포함하지 않은 회귀 모델(model1)의 독립항들을 누락 변수에 회귀 시킨 모델의 $X_i$의 회귀 계수
- $W_i = \pi_0 + \pi_1 X_i + \epsilon_{3i}$
$\gamma_2$ : 누락변수를 포함한 모델(model2)에서의 누락 변수의 효과(회귀 계수)
- $Y_i = \gamma_0 + \gamma_1 X_i + \gamma_2 W_i + \epsilon_{2i}$

즉, 정리하면 누락 편의(OVB)는 $\beta_1 - \gamma_1 = \pi_1 \gamma_2$ 입니다.

그리고 이 식을 정리하면 $\beta_1 = \gamma_1 + \pi_1 \gamma_2$ 가 됩니다.

이 식은 "변수를 누락하여 추정한 값(좌항)은 변수를 포함해서 추정한 회귀 계수 + 누락 편의 값(우항)"를 의미합니다

그렇다면, $\beta_1 =\gamma_1 + \pi_1 \gamma_2$를 증명해보겠습니다

우선, 위에서 작성한 식을 정리해서 적어놓으면

(model1: $W$를 누락한 모델) $Y_i = \beta_0 + \beta_1 X_i + \epsilon_{1i}$
(model2: $W$를 포함한 모델) $Y_i = \gamma_0 + \gamma_1 X_i + \gamma_2 W_i + \epsilon_{2i}$
(model1_sub: model1의 독립항을 누락 변수에 회귀시킨 모델) $W_i = \pi_0 + \pi_1 X_i + \epsilon_{3i}$

$\beta_1$은 OLS 회귀 추정치에 의해 다음과 같이 계산됩니다.

그리고 여기서 $Y_i$를 model2에 있는 회귀식으로 바꾸면 아래와 같이 변합니다.

$\beta_1 = \large\frac{Cov(X_i, Y_i)}{Var(X_i)} = \frac{Cov(X_i, \gamma_0 + \gamma_1 X_i + \gamma_2 W_i + \epsilon_{2i})}{Var(X_i)}$
$\large\frac{\gamma_1 Cov(X_i,X_i) + \gamma_2 Cov(X_i, W_i) + Cov(X_i, \epsilon_{2i}) }{Var(X_i)}$
$\large\frac{\gamma_1 Cov(X_i,X_i)}{Var(X_i)} + \frac{\gamma_2 Cov(X_i, W_i)}{Var(X_i)} + \frac{Cov(X_i, \epsilon_{2i})}{Var(X_i)}$

여기서

첫 번째 항은 $Cov(X_i, X_i) = Var(X_i)$ 이므로 $\gamma_1$ 이 되고
두 번째 항은 $\frac{Cov(X_i, W_i)}{Var(X_i)} = \pi_1$ ($X_i$를 $W_i$에 회귀한 모델의 $X_i$의 회귀 계수) 이고
세 번째 항인 $Cov(X_i, \epsilon_{2i}) = 0$ (독립변수와 residuals은 독립) 이 됩니다.

따라서, 최종 정리하면 $\beta_1 = \gamma_1 + \gamma_2 \pi_1$ 이 됩니다.

▼ 글이 도움이 되셨다면 아래 클릭 한번 부탁드립니다 :) ▼