일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- Omitted Variable Bias
- 인과 추론
- 네이버 뉴스
- 교란 변수
- 예제
- simple linear regression
- backdoor adjustment
- 크롤링
- Instrumental Variable
- 회귀불연속설계
- 머신러닝
- Sharp RD
- causal inference
- 통계
- rct
- 선형대수
- OVB
- least square estimation
- 인과추론
- 단순선형회귀
- 교란변수
- 누락편의
- 잔차의 성질
- 사영
- LU분해
- HTML
- 최소제곱법
- Python
- confounder
- residuals
- Today
- Total
Always awake,
이중차분법(DID) 본문
본 포스팅은 이중 차분법에 대해 공부한 내용을 정리한 글입니다 :)
- 참고 서적 : Joshua D. Angrist, Jorn-Steffen Pischke. (2018). 고수들의 계량경제학. 시그마프레스. p.178 ~ p.190
이중 차분법 컨셉
이중 차분법은 원인변수와 결과변수 간의 인과 효과를 측정하기 위한 인과 추론 방법입니다
인과 추론 시 데이터의 특성과 생성되는 상황에 따라 적절한 방법을 선택하여 사용하는데 그 중 이중 차분법에 대해 설명하고자 합니다.
이중 차분법(DID; Difference In Difference)은 도구 변수(Instrumental Variable)과 회귀불연속설계(RDD; Regression Discontinuity Design)의 적용이 어려울 때 사용할 수 있습니다.
인과 추론 방법론에서 도구 변수와 회귀불연속설계는 비교 집단(Treated group vs, Control group)을 최대한 유사하게 세팅하기 위해 무작위성을 이용하지만, 이중차분법은 애초에 두 집단의 다름을 인정합니다.
- 도구 변수 : 원인 변수와 상관성이 매우 높으며, 무작위로 배정되는 변수를 이용
- 회귀불연속설계 : 배정 변수 임계값 근방에서 처치 여부가 결정되며, 나머지 조건은 무작위로 분포한다는 가정을 이용
대신 이중 차분법의 중요한 가정은 "처치를 받은 그룹(untreated group)이 만약 처치를 받지 않았다면 나타났을 결과 변수의 트렌드 변화는, 처치를 받지 않은 그룹(control group)의 결과 변수의 트렌드 변화와 같다" 라는 것입니다. 이를 parallel trend assumption이라고 합니다.
즉, 두 비교 그룹 간 결과 변수 크기의 차이는 존재하나(두 집단이 다름을 인정) 시간에 따른 변화는 동일할 것이라는 것입니다. 처치 시점 이후에 대해 처치를 받은 그룹이 처치를 받지 않았을 때 나타날 결과 변수(반사실)를 처치를 받지 않은 그룹의 결과 변수 트렌드 변화를 통해 구하려는 것이죠
출처 : https://www.aptech.com/blog/introduction-to-difference-in-differences-estimation/
말이 어려우니 예시를 통해 봅시다
위에 처치 시점(시점 4)에 처치를 받은 그룹(실험군)과 처치를 받지 않은 그룹(대조군)의 결과 변수 그래프가 있습니다. 처치 시점 이전에는 실험군과 대조군 둘 다 처치를 받지 않았고, 처치 시점 이후에는 실험군만 처치를 받았습니다. 처치가 결과 변수에 미치는 영향을 확인하기 위해서는 실험군이 처치 시점 이후에 처치를 받지 않았을 때의 결과 변수를 확인해야 할 것입니다.
- 보라색 선 : 처치를 받은 그룹의 처치 전/후의 결과 변수
- 초록색 선 : 처치를 받지 않은 그룹의 처치 전/후의 결과 변수
이 때, 대조군의 트렌드 변화를 이용합니다. 평행 트렌드 가정(parallel trend assumption) 하에, "실험군이 처치를 받지 않았다면 나타났을 결과 변수의 트렌드 변화"는 "대조군의 결과 변수 트렌드 변화"가 동일할 것이기 때문입니다. 이를 추론하여 표시한 것이 주황색 점선입니다. (처치 시점 이후에 대해서 처치를 받지 않았다면 실험군에게서 관측될 것으로 예상되는 값이므로 이를 "반사실"이라고 합니다)
- 주황색 점선 : 처치를 받은 그룹의 만약 처치를 받지 않았다면 나타났을 결과 변수 추정값 (실제로 관측되지 않은 반사실)
결과적으로 인과 효과를 추론하기 위해 처치 시점 전/후로 처치를 받은 그룹과 처치를 받지 않은 그룹의 트렌드 변화가 얼마나 다르게 나타나는지를 측정합니다
측정 방법
이중 차분법은 말 그대로 차분(Difference)를 두 번에 걸쳐 진행하는 것입니다.
처치를 받은 그룹(treated group)과 처치를 받지 않은 그룹(control group)의 시간에 따른 결과 변수인 시계열 데이터로 추론을 진행합니다.
데이터 요구사항은 1) 처치 여부에 따른 두 그룹을 구분할 더미 변수, 2) 처치 전/후를 구분할 더미 변수 입니다.
단순 측정
계산은 말 그대로 결과 변수에 대해 두 번 차분을 진행합니다.
$E$는 결과 변수의 기댓값을 의미하고 첫 번째 아랫 첨자는 $1$ : 처치 그룹, $0$ : 통제 그룹 을 의미, 두 번째 아랫 첨자는 $0$ : 처치 전 시점, $1$ : 처치 후 시점 을 의미합니다
처치 전(pre-treatment) | 처치 후(post-treatment) | |
처치 그룹(treated group) | $E_{10}$ | $E_{11}$ |
통제 그룹(control group) | $E_{00}$ | $E_{01}$ |
- 횡단면 차분
- 그룹 자체의 시간에 따른 변화를 의미
- $E_{11}$ - $E_{10}$ : 처치 그룹의 시간에 따른 변화
- $E_{01}$ - $E_{00}$ : 통제 그룹의 시간에 따른 변화
- 종단면 차분
- 그룹 간의 차이를 의미
- $E_{11}$ - $E_{01}$ : 처치 시점 후 처치 그룹과 통제 그룹 간의 차이
- $E_{10}$ - $E_{00}$ : 처치 시점 전 처치 그룹과 통제 그룹 간의 차이
- 이중 차분 ($\delta_{DD}$)
- 1) 횡단면 차분을 다시 차분한 값 : ($E_{11}$ - $E_{10}$) - ($E_{01}$ - $E_{00}$)
- 2) 종단면 차분을 다시 차분한 값 : ($E_{11}$ - $E_{01}$) - ($E_{10}$ - $E_{00}$)
횡단면 차분을 기준으로 다시 차분한 값(1번) 과 종단면 차분을 기준으로 다시 차분한 값(2번) 이 동일한 것을 알 수 있습니다
이렇게 이중으로 차분을 하면 두 집단 간의 특징 차이(종단면)를 제거하고, 시점에 따른 결과 변수의 변화(횡단면)가 얼마나 다르게 일어나는지 확인할 수 있습니다
회귀 모형을 이용한 측정
회귀 분석을 통해 이중 차분 값과 그 유의성을 측정하기 위해서는 다음과 같이 3개의 변수가 필요합니다.
- 처치 여부($T_d$)
- 1 : 처치를 받은 그룹(treated group)
- 0 : 처치를 받지 않은 그룹(control group)
- 시간에 따른 변화($P_t$)
- 1 : 처치 시점 이후
- 0 : 처치 시점 이전
- 교차항($T_d P_t$)
- 0 : 처치를 받지 않은 그룹의 처치 시점 전/후, 처치를 받은 그룹의 처치 시점 전
- 1 : 처치를 받은 그룹의 처치 시점 이후
즉, 회귀 식은 $Y_{dt} = \alpha + \beta T_d + \gamma P_t + \delta_{rDD} (T_d P_t) + \epsilon_{dt}$과 같이 구성되며 여기서 각 회귀 계수가 의미하는 것은 아래와 같습니다.
(여기서 $\delta_{rDD}$의 아랫 첨자에 $r$이 붙는 것은 회귀식으로 추정한 이중 차분 값이라는 의미입니다)
- $\beta$ : 그룹 간 차이 (control group 대비 treated group)
- $\gamma$ : 시간에 따른 결과 변수의 변화(시점 전 대비 시점 후)
- $\delta_{rDD}$ : 이중차분 값(처치에 대한 인과 효과)
$\delta_{DD}$ = $\delta_{rDD}$ 확인
회귀 식에서 구한 이중차분 값에 해당하는 회귀 계수($\delta_{rDD}$)가 위에서 구한 이중차분 값($\delta_{DD}$)과 동일한지 확인해보면 아래와 같습니다
$T_d$, $P_t$에 각각 더미변수 값($0,1$)을 대입하여 회귀 계수를 구하면 아래와 같고
- $E_{00} = E[Y_{dt} | T_d = 0, P_t = 0] = \alpha$
- $E_{10} = E[Y_{dt} | T_d = 1, P_t = 0] = \alpha + \beta$
- $E_{01} = E[Y_{dt} | T_d = 0, P_t = 1] = \alpha + \gamma$
- $E_{11} = E[Y_{dt} | T_d = 1, P_t = 1] = \alpha + \beta + \gamma + \delta_{rDD}$
$\delta_{DD} = (E_{11} - E_{10}) - (E_{01} - E_{00})$ 이므로 계산하면 $\delta_{rDD}$가 됩니다!
마치며
이중차분법의 컨셉과 회귀 식을 이용하여 측정하는 방법에 대해 알아보았습니다
다음으로는 예제에 관해 포스팅을 진행할 예정입니다
글 읽어주셔서 감사드립니다 :)
▼ 글이 도움이 되셨다면 아래 클릭 한번 부탁드립니다 :) ▼
'인과추론(Causal Inference)' 카테고리의 다른 글
이중차분법(DID) 예제 (0) | 2021.10.05 |
---|---|
불연속회귀설계(RDD) (0) | 2021.10.04 |
도구 변수(IV) 예제 (0) | 2021.08.26 |
도구 변수(IV) (2) | 2021.07.20 |
누락 편의(OVB) 예제 (3) | 2021.07.20 |