Always awake,

누락 편의(OVB) 본문

인과추론(Causal Inference)

누락 편의(OVB)

호재 P.B 2021. 7. 17. 23:02

누락 편의에 대해 공부한 내용을 정리한 글입니다 :)

  • 참고 서적 : Joshua D. Angrist, Jorn-Steffen Pischke. (2018). 고수들의 계량경제학. 시그마프레스 p.90 ~ p.91

누락 편의 개념

누락 편의란 통제가 필요한 변수가 통제되지 않았을 때 발생하는 편의(bias)를 의미합니다.

X와 Y 사이에 교란 변수가 존재하는 Causal Graph

예를 들어, XY에 미치는 인과 효과를 추정할 때, 교란 변수 W가 존재하는 경우를 생각해봅시다.

실제 XY에 미치는 인과 효과는 교란 변수인 W를 통제(회귀식에 독립항으로 추가)한 상태에서 측정한 값입니다.

 

하지만, 어떠한 이유에 의해 우리는 교란 변수 W를 누락하게 되었다고 합시다.

  • 설계 단계에서 W를 생각하지 못한 경우
  • W가 교란 요인으로 작용할 것이라 알고 있지만, 측정하지 못한 경우(data로 존재하지 않음)

이렇게 변수 W가 누락된 모델을 model1이라고 해봅시다. 식은 아래와 같습니다.

Yi=β0+β1Xi+ϵ1i

 

그리고 교란 변수W를 잘 찾아내고 통제하여 회귀한 모델을 model2라고 해봅시다

Yi=γ0+γ1Xi+γ2Wi+ϵ2i

 

Xi의 회귀 계수는 Yi와의 상관관계를 의미하므로 각 model의 회귀 식에 따라 Xi의 회귀 계수를 해석하면

  • model1에서의 Xi의 회귀 계수(β1) : 교란 변수 W를 통제하지 못한 상태에서 추정한 값이므로 non-causal association과 causal association이 합쳐진 값
  • model2에서의 Xi의 회귀 계수(γ1) : 교란 변수 W를 통제한 상태에서 추정한 값이므로 causal assocication입니다.

즉, 실제 인과 효과는 교란 변수 W를 통제한 상태(model2)에서 추정한 Xi의 회귀 계수이지만, 교란 변수를 누락하게 되면(model1) 인과 효과를 잘못 추정하게 됩니다. 

 

이것이 누락 편의(OVB; Omitted Variable Bias)입니다.

(통제해야할 변수를 누락하여 발생한 편의)


누락 편의 계산

실제로 누락 편의의 값과 어떻게 계산되는지 살펴봅시다.

위의 예시처럼 우리가 누락한 변수가 W라고 합시다.

 

여기서 누락 편의는 아래와 같습니다. 

  • β1γ1 (변수 누락으로 잘못 추정한 인과효과 - 실제 인과효과)
  • 변수W를 포함하지 않은 모델의 Xi의 회귀 계수(β1)에서 변수W를 포함한 모델의 Xi의 회귀 계수(γ1)를 뺀 값입니다

이는 1) 누락 변수WX와의 관계 (π1) , 2) 누락 변수WY와의 관계 (γ2)를 이용하여 계산할 수 있습니다

( OVB = β1γ1=π1γ2)

  • π1 : 누락변수를 포함하지 않은 회귀 모델(model1)의 독립항들을 누락 변수에 회귀 시킨 모델의 Xi의 회귀 계수
    • Wi=π0+π1Xi+ϵ3i
  • γ2 : 누락변수를 포함한 모델(model2)에서의 누락 변수의 효과(회귀 계수)
    • Yi=γ0+γ1Xi+γ2Wi+ϵ2i

즉, 정리하면 누락 편의(OVB)는 β1γ1=π1γ2 입니다.

그리고 이 식을 정리하면 β1=γ1+π1γ2 가 됩니다.

이 식은 "변수를 누락하여 추정한 값(좌항)은 변수를 포함해서 추정한 회귀 계수 + 누락 편의 값(우항)"를 의미합니다

누락 편의 계산 증명

그렇다면, β1=γ1+π1γ2를 증명해보겠습니다

 

우선, 위에서 작성한 식을 정리해서 적어놓으면

  • (model1: W를 누락한 모델) Yi=β0+β1Xi+ϵ1i
  • (model2: W를 포함한 모델) Yi=γ0+γ1Xi+γ2Wi+ϵ2i
  • (model1_sub: model1의 독립항을 누락 변수에 회귀시킨 모델) Wi=π0+π1Xi+ϵ3i

β1은 OLS 회귀 추정치에 의해 다음과 같이 계산됩니다.

  • β1=Cov(Xi,Yi)Var(Xi)

그리고 여기서 Yi를 model2에 있는 회귀식으로 바꾸면 아래와 같이 변합니다.

  • β1=Cov(Xi,Yi)Var(Xi)=Cov(Xi,γ0+γ1Xi+γ2Wi+ϵ2i)Var(Xi)
  • γ1Cov(Xi,Xi)+γ2Cov(Xi,Wi)+Cov(Xi,ϵ2i)Var(Xi)
  • γ1Cov(Xi,Xi)Var(Xi)+γ2Cov(Xi,Wi)Var(Xi)+Cov(Xi,ϵ2i)Var(Xi)

여기서

  • 첫 번째 항은 Cov(Xi,Xi)=Var(Xi) 이므로 γ1 이 되고
  • 두 번째 항은 Cov(Xi,Wi)Var(Xi)=π1 (XiWi에 회귀한 모델의 Xi의 회귀 계수) 이고
  • 세 번째 항인 Cov(Xi,ϵ2i)=0 (독립변수와 residuals은 독립) 이 됩니다.

따라서, 최종 정리하면 β1=γ1+γ2π1 이 됩니다.

 

 

글이 도움이 되셨다면 아래 클릭 한번 부탁드립니다 :)

반응형