일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- Omitted Variable Bias
- LU분해
- 잔차의 성질
- residuals
- 사영
- HTML
- 통계
- 크롤링
- 회귀불연속설계
- 선형대수
- 네이버 뉴스
- Instrumental Variable
- confounder
- 머신러닝
- 단순선형회귀
- simple linear regression
- 교란변수
- 교란 변수
- rct
- 최소제곱법
- 인과 추론
- Python
- 누락편의
- 예제
- causal inference
- backdoor adjustment
- 인과추론
- OVB
- least square estimation
- Sharp RD
- Today
- Total
Always awake,
인과 추론이 어려운 이유 본문
동일 조건 맞추기?
자 어떤 상황을 생각해봅시다. 회사에서 매출 증대를 위해 프로모션 상품을 개시했다고 합시다. 여기서 우리가 확인할 것은 원인(프로모션 상품)과 결과(매출)의 관계입니다. 프로모션 상품 때문에 매출이 변한 것이 맞는지 확인해야 하는 것이죠
인과 관계(A는 B의 원인이다)는 A를 제외한 모든 조건이 동일한 상태에서 A를 하였을 때와 하지 않았을 때의 B가 다른 경우를 말합니다.
인과 관계의 정의에 따라 확인하고자 한다면 아래의 두 가지를 비교해야 합니다.
- 프로모션을 개시하지 않았을 때의 매출(원인을 하지 않았을 때의 결과)
- 프로모션을 개시하였을 때의 매출(원인을 했을 때의 결과)
하지만 우리는 이미 프로모션을 개시한 상태입니다. 두 번째 결과에 해당하는 "프로모션을 개시하였을 때의 매출"만 현재 존재하는 상태죠.
첫 번째에 해당하는 결과는 볼 수도 얻을 수도 없습니다. 프로모션 전의 매출을 "프로모션을 개시하지 않았을 때의 매출"로 하여 비교하면 될까요? 아닙니다. 프로모션을 개시했을 때와 같은 상황이 아니므로 "프로모션 개시"(원인)을 제외하고 다른 조건이 동일하다고 볼 수 없습니다.
이렇게 하나의 상황(프로모션을 개시했거나 개시하지 않았거나)에 대한 데이터만 존재하기 때문에 정의에 따른 인과 관계 측정은 불가능 합니다. 둘 중 관측된 하나의 상황에 대한 결과를 "사실"(여기서는 프로모션 개시 후 매출)이라 하고 선택받지 못해 관측되지 못한 상황에 대한 결과를 "반사실"(Counterfactual)(여기서는 프로모션을 개시하지 않았을 때의 매출)이라고 합니다.
그러면 어떻게 하죠?
최대한 조건이 비슷한 두 개체 or 집단에 대해서 한쪽은 원인에 해당하는 것을 하고, 한쪽은 하지 않은 후 양쪽에서 나온 결과를 비교하는 방식이 가장 좋겠죠. 주로 우리는 이 두 가지 방법을 많이 사용할 것입니다. 아래의 예시를 통해 알아보겠습니다.
case1) 전/후 비교
- 프로모션 상품을 개시하고 동안 전 달 대비 한 달 이후 매출이 20% 올랐다면 프로모션 상품 기획을 잘 한 것일까요? 더 나아가 우리는 앞으로 새로운 프로모션 상품을 꾸준히 출시해서 매출 상승을 기대할 수 있을까요?
- 그럴 수도 있고 아닐 수도 있습니다. 단순히 프로모션 상품을 개시하고 매출이 20% 올랐기 때문에 매출 상승은 온전히 프로모션 상품 덕이다!(인과 관계가 있다)라고 판단한다면 정말 큰 낭비를 저지를 수 있습니다. 그 이유는 외부의 영향을 전혀 고려하지 않고 판단한 관계이기 때문입니다.
- 만약 지금 해당 시장이 상승세에 있다면?(트렌드) 프로모션을 하지 않았더라도 매출은 증가했겠지요. 그리고 다른 프로모션이 같이 진행 중인 것이라면? 매출 20% 증가 중 일부는 우리가 진행한 프로모션 때문이 아닐 수도 있습니다. 이렇듯 인과 효과를 확인하기 위해서는 결과에 영향을 미치는 다른 영향은 없는지 고려해야 합니다.(어쩌면 매출 증가 20%는 다른 영향만으로 가득 채워진 결과일 수도 있습니다. 프로모션은 아무런 영향도 주지 않은 채 말이죠)
case2) 집단 간 비교
- 프로모션이 매출 증가에 원인이 되는지 확인하기 위해 프로모션을 상품을 구입한 집단(A)과 구입하지 않은 집단(B)의 향후 한 달 간 매출액을 비교해봅시다. 여기서 기대하는 것은 프로모션 상품에 따른 매출 차이를 확인할 수 있을 것이고 매출 차이가 있다면 이것은 프로모션 상품으로 인한 것이다! 입니다.
- 이렇게 설계하고 프로모션을 평가하는 것이 맞을까요? 음..아마 잘못되어 있을 가능성이 매우 높습니다.
- 아마 프로모션 상품을 구매한 A집단의 고객들이 B집단의 고객들보다 충성도가 높은 고객일 가능성이 높습니다. 여기서 "충성도"라는 변수가 "프로모션 상품 구매 여부"(원인)과 "매출"(결과)에 동시에 영향을 주는 경우를 말합니다.
- 즉, 애초에 충성도가 높은 고객이 프로모션 상품을 구매할 가능성이 높고, 더 많이 살(매출 증가) 가능성이 높기 때문에 프로모션 상품 구매 여부로 두 집단을 나눈다면(A,B) 두 집단 간에 공정한 비교가 어렵습니다.
- 따라서, 단순히 두 집단의 매출을 비교해서 프로모션 상품이 매출에 미치는 효과가 이만큼이다! 라고 판단할 수 없습니다.
이렇듯 현실에서는 "조건이 비슷한"이라는 가정을 맞추기가 쉽지 않습니다. 현실에서는 트렌드 등의 외부의 영향이 존재하거나(case1), 우리가 인과 관계 추정을 위해 두 집단으로 나누었을 때 두 집단의 성질 자체가 다른 경우(case2)가 대부분이기 때문입니다.
A/B 테스트?
case2와 같은 방식은 흔히 A/B 테스트와 유사해보일 수가 있습니다. 하지만, 실험 대상이 처치를 자발적으로 선택하였는지 여부가 다릅니다.
- A/B 테스트 : 처치(여기서는 프로모션)를 실험자(분석가)가 실험 대상에게 임의로 할당하여 그 효과를 비교하는 방법
- case2 : 처치(여기서는 프로모션)가 실험 대상자의 자기 선택에 따라 적용된 경우이다. 즉, 임의로 할당되지 않고 어떤 특성(충성도)에 따라 처치가 결정되는 상태
위에서 설명한 것처럼 case2로 분석한 결과가 인과 관계가 아닌 이유는 충성도에 따라 프로모션 상품 구매 여부가 정해질 것이고 따라서 프로모션 상품 구매 여부로 집단을 나누어 매출을 비교하면 공정한 비교가 아니기 때문입니다. 즉, 구매자의 충성도에 따른 프로모션 구매 여부가 정해지는 자기 선택이 존재하므로 애초에 프로모션 구매 여부로 나눈 두 집단 간에 공정한 비교가 불가능합니다.
하지만 A/B 테스트의 경우 실험자가 임의로 처치를 할당(프로모션 상품을 제공해주거나 제공하지 않거나)하여 집단을 나누기 때문에 구매자의 충성도가 프로모션 구매 여부를 선택하는 자기 선택 문제가 해결됩니다. 두 집단의 특성이 동일해지는 것입니다. 이렇게 해서 두 집단의 매출을 비교한다면 프로모션 구매 여부가 매출에 미치는 인과 관계를 측정할 수 있습니다.
이렇게 A/B 테스트를 사용하면 처치를 실험 대상자에게 랜덤 할당할 수 있으므로 인과 관계 추정 문제가 매우 쉬워졌습니다! 단순히 두 집단을 비교하면 되죠.
하지만, 현실에서는 실험자가 실험 대상자에게 처치를 임의 할당하는 개입이 도덕적 문제나 형평성 문제로 인해 불가능한 경우가 많습니다. 따라서 두 집단의 특성을 최대한 동일하게 만들기 위한 다른 통계적인 방법이 필요하죠.
마치며
다음에는 이러한 집단의 특성을 다르게 만드는 요인을 설명하고 이를 해결하는 방법에 대해 포스팅해보려합니다.
긴 글 읽어주셔서 감사합니다 :D
▼ 글이 도움이 되셨다면 아래 클릭 한번 부탁드립니다 :) ▼
'인과추론(Causal Inference)' 카테고리의 다른 글
[인과 추론 발표] 2021 Summer Session On Causal Inference (0) | 2021.07.16 |
---|---|
backdoor adjustment (0) | 2021.07.12 |
인과 추론을 어렵게 하는 요소(Collider) (0) | 2021.06.05 |
인과 추론을 어렵게 하는 요소(교란 변수) (2) | 2021.05.21 |
인과 관계를 잘 알아야 하는 이유 (2) | 2021.05.11 |