일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 잔차의 성질
- rct
- 인과추론
- 단순선형회귀
- Python
- Instrumental Variable
- 머신러닝
- residuals
- HTML
- 예제
- 선형대수
- 회귀불연속설계
- Sharp RD
- 네이버 뉴스
- 통계
- confounder
- 크롤링
- backdoor adjustment
- LU분해
- least square estimation
- OVB
- 교란 변수
- 누락편의
- causal inference
- 인과 추론
- 최소제곱법
- Omitted Variable Bias
- 사영
- simple linear regression
- 교란변수
- Today
- Total
Always awake,
인과 관계를 잘 알아야 하는 이유 본문
"본 포스팅은 인과 관계를 잘 알아야 하는 이유에 대한 개인적인 생각을 정리한 글입니다."
correlation is not causation(상관 관계는 인과 관계가 아니다)
"A가 B의 원인이다"라는 인과 관계는 A(원인)를 했을 때와 하지 않았을 때의 B(결과)가 다른 것을 의미합니다. 즉, 다른 조건은 모두 동일하게 유지한 채 어떤 하나만 바꿨을 때 결과가 달라지면 그것은 원인에 해당하는 것이죠.
우리는 흔히 어떤 상관 관계가 높은 두 사건을 보고 하나는 원인이고, 하나는 결과다!라고 판단하는 경우가 있습니다. 아래는 재미있는 상관 관계에 대한 예시입니다.
마가린 소비와 이혼율 두 사건은 상관관계가 0.99로 매우 높습니다. 그렇다면 마가린을 많이 소비할수록 이혼율이 높으므로 마가린은 이혼을 촉진하는 원인일까요? 만약 그렇다면 전국적으로 마가린 판매를 중단해야할까요?
사실 우리는 "상식 선에서" 이것이 우연한 연관성이라는 것을 바로 알 수 있습니다.
우연히 발생한 사건을 가지고 원인이다!라고 판단할 수 없는 그런 관계인 것을 알고 있죠. 두 사건의 상관성은 어떠한 이유에 의해서 매우 높지만 직접적인 인과 관계가 아니라는 것은 당연히 알 수 있습니다.
하지만 조금 헷갈리는, 정말 그럴 듯한 두 사건의 상관 관계가 매우 높다면 우리는 둘의 관계가 인과 관계가 아님에도 불구하고 원인과 결과다!라고 단정 지을 수 있습니다.
원인과 결과를 아는 것이 그렇게까지 중요한가요?
우리가 원인을 파악하려는 이유는 목표로 하는 결과를 우리가 원하는 방향으로 조절해서 어떠한 이득을 얻기 위해서입니다. 우리가 관심 있는 결과에 대한 원인을 파악하고, 결과를 우리가 원하는 방향으로 이끌기 위해 원인을 조절하는 것이죠
- 결과에 대한 원인 파악 → 원인이 결과에 미치는 영향 파악 → 결과를 원하는 방향으로 이끌기 위한 원인 조절
만약 위의 예시(마가린 소비와 이혼율)와 같이 우연에 의해 발생한 상관 관계를 인과 관계로 착각한다면 어떤 일이 발생할까요?
이혼율 증가에 마가린 소비가 원인이니 이혼율을 낮추기 위해 마가린 소비를 줄이자. 전국적으로 마가린 판매를 중단하자! 라는 결정을 할 것이고 실행에 옮기겠죠.
그런데 이는 인과 관계가 아니므로 당연히 우리가 원하는 결과(이혼율 감소)가 나오지 않을 것이고요.
결과적으로 인과 관계를 잘못 안 상태에서 잘못된 판단을 하여 엉뚱한 일을 저지를 수도 있고, 이것은 낭비로 이어집니다.
예를 들어 회사의 매출 증대를 위해 어떤 프로모션 상품을 기획하여 출시하였고 그 다음 달의 매출이 전 달에 비해 20% 증가하였다고 합시다.
우리는 프로모션 상품을 출시했기 때문에 매출이 20% 증가했구나! 라고 생각할 수 있습니다.
그리고 그 이후에도 매출 증대를 기대하고 유사한 프로모션 상품을 열심히 기획하고 출시하겠죠.
하지만 실제로 프로모션은 매출 증가에 아무런 영향을 주지 않았고 매출 증가가 우연에 의한 것이거나 외부 영향에 의한 것이었다면?
그 이후 진행한 프로모션이 전부 낭비가 되게 됩니다.
프로모션 상품 기획과 준비에는 비용과 시간이 들기에 결국 매출 증대에 아무런 효과도 없는 기획을 하고 있었던 것입니다.
이렇듯 두 사건의 상관 관계를 인과 관계로 착각하는 경우 잘못된 판단과 행동으로 낭비를 야기할 수 있습니다. 잘못된 결정과 행동으로 인한 낭비를 방지하기 위해서는 인과 관계를 정확하게 파악하는 것이 중요합니다
잘못된 인과 관계 → 잘못된 결정과 실행 → 원하는 결과를 얻지 못한 채 시간, 돈을 낭비할 가능성이 높음
마치며
다음에는 인과 관계를 추론하는 방법이 어려운 이유에 대해 생각을 정리해보려 합니다.
글 읽어주셔서 감사합니다 :)
'인과추론(Causal Inference)' 카테고리의 다른 글
[인과 추론 발표] 2021 Summer Session On Causal Inference (0) | 2021.07.16 |
---|---|
backdoor adjustment (0) | 2021.07.12 |
인과 추론을 어렵게 하는 요소(Collider) (0) | 2021.06.05 |
인과 추론을 어렵게 하는 요소(교란 변수) (2) | 2021.05.21 |
인과 추론이 어려운 이유 (0) | 2021.05.18 |