누락 편의(OVB)

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

Always awake,

누락 편의(OVB) 본문

인과추론(Causal Inference)

누락 편의(OVB)

호재 P.B 2021. 7. 17. 23:02

누락 편의에 대해 공부한 내용을 정리한 글입니다 :)

참고 서적 : Joshua D. Angrist, Jorn-Steffen Pischke. (2018). 고수들의 계량경제학. 시그마프레스 p.90 ~ p.91

누락 편의 개념

누락 편의란 통제가 필요한 변수가 통제되지 않았을 때 발생하는 편의(bias)를 의미합니다.

예를 들어, $X$가 $Y$에 미치는 인과 효과를 추정할 때, 교란 변수 $W$가 존재하는 경우를 생각해봅시다.

실제 $X$가 $Y$에 미치는 인과 효과는 교란 변수인 $W$를 통제(회귀식에 독립항으로 추가)한 상태에서 측정한 값입니다.

하지만, 어떠한 이유에 의해 우리는 교란 변수 $W$를 누락하게 되었다고 합시다.

설계 단계에서 $W$를 생각하지 못한 경우
$W$가 교란 요인으로 작용할 것이라 알고 있지만, 측정하지 못한 경우(data로 존재하지 않음)

이렇게 변수 $W$가 누락된 모델을 model1이라고 해봅시다. 식은 아래와 같습니다.

$Y_i = \beta_0 + \beta_1X_i + \epsilon_{1i}$

그리고 교란 변수$W$를 잘 찾아내고 통제하여 회귀한 모델을 model2라고 해봅시다

$Y_i = \gamma_0 + \gamma_1X_i + \gamma_2W_i + \epsilon_{2i}$

$X_i$의 회귀 계수는 $Y_i$와의 상관관계를 의미하므로 각 model의 회귀 식에 따라 $X_i$의 회귀 계수를 해석하면

model1에서의 $X_i$의 회귀 계수($\beta_1$) : 교란 변수 $W$를 통제하지 못한 상태에서 추정한 값이므로 non-causal association과 causal association이 합쳐진 값
model2에서의 $X_i$의 회귀 계수($\gamma_1$) : 교란 변수 $W$를 통제한 상태에서 추정한 값이므로 causal assocication입니다.

즉, 실제 인과 효과는 교란 변수 $W$를 통제한 상태(model2)에서 추정한 $X_i$의 회귀 계수이지만, 교란 변수를 누락하게 되면(model1) 인과 효과를 잘못 추정하게 됩니다.

이것이 누락 편의(OVB; Omitted Variable Bias)입니다.

(통제해야할 변수를 누락하여 발생한 편의)

누락 편의 계산

실제로 누락 편의의 값과 어떻게 계산되는지 살펴봅시다.

위의 예시처럼 우리가 누락한 변수가 $W$라고 합시다.

여기서 누락 편의는 아래와 같습니다.

$\beta_1 - \gamma_1$ (변수 누락으로 잘못 추정한 인과효과 - 실제 인과효과)
변수$W$를 포함하지 않은 모델의 $X_i$의 회귀 계수($\beta_1$)에서 변수$W$를 포함한 모델의 $X_i$의 회귀 계수($\gamma_1$)를 뺀 값입니다

이는 1) 누락 변수$W$와 $X$와의 관계 ($\pi_1$) , 2) 누락 변수$W$와 $Y$와의 관계 ($\gamma_2$)를 이용하여 계산할 수 있습니다

( OVB = $\beta_1 - \gamma_1 = \pi_1 \gamma_2$)

$\pi_1$ : 누락변수를 포함하지 않은 회귀 모델(model1)의 독립항들을 누락 변수에 회귀 시킨 모델의 $X_i$의 회귀 계수
- $W_i = \pi_0 + \pi_1 X_i + \epsilon_{3i}$
$\gamma_2$ : 누락변수를 포함한 모델(model2)에서의 누락 변수의 효과(회귀 계수)
- $Y_i = \gamma_0 + \gamma_1 X_i + \gamma_2 W_i + \epsilon_{2i}$

즉, 정리하면 누락 편의(OVB)는 $\beta_1 - \gamma_1 = \pi_1 \gamma_2$ 입니다.

그리고 이 식을 정리하면 $\beta_1 = \gamma_1 + \pi_1 \gamma_2$ 가 됩니다.

이 식은 "변수를 누락하여 추정한 값(좌항)은 변수를 포함해서 추정한 회귀 계수 + 누락 편의 값(우항)"를 의미합니다

누락 편의 계산 증명

그렇다면, $\beta_1 =\gamma_1 + \pi_1 \gamma_2$를 증명해보겠습니다

우선, 위에서 작성한 식을 정리해서 적어놓으면

(model1: $W$를 누락한 모델) $Y_i = \beta_0 + \beta_1 X_i + \epsilon_{1i}$
(model2: $W$를 포함한 모델) $Y_i = \gamma_0 + \gamma_1 X_i + \gamma_2 W_i + \epsilon_{2i}$
(model1_sub: model1의 독립항을 누락 변수에 회귀시킨 모델) $W_i = \pi_0 + \pi_1 X_i + \epsilon_{3i}$

$\beta_1$은 OLS 회귀 추정치에 의해 다음과 같이 계산됩니다.

$\beta_1 = \large\frac{Cov(X_i, Y_i)}{Var(X_i)}$

그리고 여기서 $Y_i$를 model2에 있는 회귀식으로 바꾸면 아래와 같이 변합니다.

$\beta_1 = \large\frac{Cov(X_i, Y_i)}{Var(X_i)} = \frac{Cov(X_i, \gamma_0 + \gamma_1 X_i + \gamma_2 W_i + \epsilon_{2i})}{Var(X_i)}$
$\large\frac{\gamma_1 Cov(X_i,X_i) + \gamma_2 Cov(X_i, W_i) + Cov(X_i, \epsilon_{2i}) }{Var(X_i)}$
$\large\frac{\gamma_1 Cov(X_i,X_i)}{Var(X_i)} + \frac{\gamma_2 Cov(X_i, W_i)}{Var(X_i)} + \frac{Cov(X_i, \epsilon_{2i})}{Var(X_i)}$

여기서

첫 번째 항은 $Cov(X_i, X_i) = Var(X_i)$ 이므로 $\gamma_1$ 이 되고
두 번째 항은 $\frac{Cov(X_i, W_i)}{Var(X_i)} = \pi_1$ ($X_i$를 $W_i$에 회귀한 모델의 $X_i$의 회귀 계수) 이고
세 번째 항인 $Cov(X_i, \epsilon_{2i}) = 0$ (독립변수와 residuals은 독립) 이 됩니다.

따라서, 최종 정리하면 $\beta_1 = \gamma_1 + \gamma_2 \pi_1$ 이 됩니다.

▼ 글이 도움이 되셨다면 아래 클릭 한번 부탁드립니다 :) ▼

'인과추론(Causal Inference)' 카테고리의 다른 글

도구 변수(IV) (2)	2021.07.20
누락 편의(OVB) 예제 (3)	2021.07.20
[인과 추론 발표] 2021 Summer Session On Causal Inference (0)	2021.07.16
backdoor adjustment (0)	2021.07.12
인과 추론을 어렵게 하는 요소(Collider) (0)	2021.06.05

'인과추론(Causal Inference)' Related Articles

Always awake,

누락 편의(OVB) 본문

누락 편의(OVB)

누락 편의 개념

누락 편의 계산

누락 편의 계산 증명

'인과추론(Causal Inference)' 카테고리의 다른 글

티스토리툴바