Always awake,

backdoor adjustment 본문

인과추론(Causal Inference)

backdoor adjustment

호재 P.B 2021. 7. 12. 23:19

"observational data에서 causal estimand를 추론하는 방법 중 하나인 backdoor adjustment를 정리하였습니다 :)"

모든 자료 및 그림의 출처는 아래 youtube 강의의 Chapter 4입니다.

 

Brady Neal - Causal Inference

Causal inference

www.youtube.com

 

do-operator

do-operator는 Intervention의 수학적 operator입니다.

일반적인 확률의 notation에서 Intervention(개입)이라는 것은 conditioning(조건부)와 다른 의미를 지닙니다.  

conditioning 과 interventing

  • Conditioning on $T=t$ : $T=t$인 subset을 선택하는 것을 의미합니다. $p(Y | T = t)$
    • 개입 없이 관찰된 데이터(observational data)에서 $T=t$인 subpopulation을 대상으로 구하는 확률
  • Intervene on $T$ : subset이 아닌 whole population에 대해 $T=t$로 설정하는 것을 의미합니다 $p(Y | do(T=t))$
    • whole population에 대해 $T$의 값을 $t$가 되도록 개입하여 생성한 데이터에서의 확률
    • 여기서 개입(intervention)이란 실험을 하는 것으로 이해해도 됨
    • 그리고 개입을 수학적으로 $do(T=t)$로 표현합니다(편의상 $do(t)$)

이렇게 데이터가 생성되는 방식이 다르기 때문에 분포도 다르게 나타납니다.

  • 개입이 없이 관찰된 데이터의 분포를 Observational distribution
  • 개입을 통해 생성된 데이터의 분포를 Interventional distribution 

처치($T$)가 개입에 의해 정해졌으므로 실험(Experiment)과 같은 효과를 지니게 되며 이 데이터로 인과 효과를 추론할 수 있습니다. 이를 causal estimand라고 합니다.

하지만, 우리에게 주어진 데이터는 실험(개입)을 통해 얻은 것이 아닌 자연적으로 발생한(관찰된; observational) 데이터 이며, 이를 통해 추정하게 되는 것을 statistical estimand라고 합니다.

 

우리의 목표는 causal estimand를 statistical estimand로 표현하는 방법을 찾는 것이고, 그 중 하나의 방법이 본 포스팅에서 소개드릴 backdoor adjustment입니다.

Modularity Assumption

그 전에 중요한 가정 하나가 필요합니다.

어떤 노드에 개입을 하게 되면 해당 노드에 미치는 영향에 변화가 생기는데 이 변화가 local하다는 가정입니다.

어떤 s노드 $X_i$에 intervene을 하게 되면 그 노드에 부모 노드($pa_i$)가 미치는 영향만 변하고, 나머지 노드 간 영향은 유지된다는 것입니다. 이를 modularity assumption이라고 합니다. 

if we intervent on a set of nodes $S⊆ [n]$, setting them to constants, then for all $i$, we have the following:
1. if $i ∉ S$, then $p(x_i | pa_i)$ remains unchanged
2. if $i ∈ S$, then $p(x_i | pa_i) = 1$ if $x_i$ is the value that $X_i$ was set to by the intervention; otherwise, $p(x_i | pa_i) = 0$

* $[n] = {1,2,3,4 ... ,n}$이며 각 숫자는 노드의 index를 의미합니다.
* $X_i$ : index가 $i$인 노드를 의미
* $x_i$ : 값(scalar)을 의미

해석하면 다음과 같습니다. 

어떤 graph 상에 $n$개의 노드가 존재하고 그 중 개입(intervene)을 한 노드의 인덱스 집합을 $S$라고 한다면,

 

1. 노드 $i$가 개입되지 않은 경우($i∉S$) : 개입되지 않은 노드 i($X_i$)의 부모 노드($pa_i$)가 노드 i에 미치는 영향은 그대로 유지된다

2. 노드 $i$가 개입되었으며($i ∈ S$) 

  • $x_i$ 값으로 개입한 경우 : $p(x_i | pa_i) = 1$
  • $x_i$ 값으로 개입하지 않은 경우 : $p(x_i | pa_i) = 0$

 

이것을 do-operator와 연관지어 그림으로 표현하면 아래와 같습니다.

Intervention에 따른 causal diagram의 변화

  • (a) : Intervention이 없는 graph
  • (b) : $T$를 $t$로 intervene한 그래프($p(Y | do(T=t))$) : $T$로 들어오는 edge의 영향이 사라지게 됩니다. 
  • (c) : $T_2$를 $t_2$로 intervene한 그래프($p(Y | do(T_2 = t_2))$) : $T_2$로 들어오는 edge의 영향이 사라지게 됩니다. 

이렇게 intervention으로 일부 노드 간 영향이 제거된 그래프를 manipulated graph라고 합니다.

 

Truncated factorization

Truncated factorization을 설명하기 앞서 bayesian network factorization을 먼저 설명드리겠습니다.

bayesian network factorization은 chain rule of probabilty에 Markov assumption이 결합된 형태입니다.

 

Chain rule of probability

  • $p(x_1, x_2, ..., x_n) = \prod_{i} {p(x_i | x_{i-1}, ..., x_1)}$

Markov assumption : 모든 노드는 오직 부모 노드로부터 영향을 받는다.

  • $p(x_i | x_{i-1}, ..., x_1) = p(x_i | pa_i)$ 
  • $pa_i$ : $x_i$의 부모노드를 의미, $x_i$에 직접적으로 영향을 미치는 노드

bayesian network factorization

  • Chain rule of probability에 Markov assumption이 적용된 형태
  • $p(x_1, x_2, ..., x_n) = \prod_{i} {p(x_i | pa_i)}$

위의 modularity assumption에 의해 intervene한 노드의 index 집합을 $S$라고 한다면

  • $i ∈ S$ 인 노드들에 대해서는 $P(x_i | pa_i) = 1$이 되므로 bayesian network factorization 계산 과정에서 생략해도 됩니다. 
  • 즉, $i ∉ S$ 인 노드들에 대해서만 $p(x_i | pa_i)$를 계산하면 됩니다.

이렇게 bayesian network factorization에서 modularity assumption이 적용된 식을 truncated fnetwork factorization이라고 합니다.

intervene 한 노드의 term을 bayesian network factorization에서 제외하는 것입니다. 

We assume that $P$ and $G$ satisfy the Markov assumption and modularity.
Given, a set of intervention nodes $S$, if $x$ is consistent with the intervention, then 

$p(x_1, ..., x_n) = \prod_{i ∉ S}{p(x_i | pa_i)}$
Otherwise, $P(x_i, ..., x_n | do(S =s) ) = 0$.

Association Is Not Causation

이제 다시 causal graph로 돌아가보겠습니다. 

  • $T$ : 원인 변수
  • $Y$ : 결과 변수
  • $X$ : confounder(교란 변수)

라고 할 때, bayesian network factorization에 의해 노드가 나타날 확률은 다음과 같습니다.

  • $p(T,Y,X) = p(T|X)p(Y|T,X)p(X)$

 

여기서 $T$에 intervene(개입;실험)하여 interventional data를 얻는다고 합시다. T에 intervene하기 때문에 modularity assumption에 의해 $T$의 부모 노드인 $X$의 영향이 사라지고($p(T|X) = 1$) 다음과 같이 truncated factorization으로 나타낼 수 있습니다. 

T에 intervene한 manipulated graph

  • $p(Y,X | do(t)) = 1 * p(Y|T,X) p(X) = P(Y|T,X) p(X)$
  • $p(Y | do(t)) = \sum_{X}{P(Y,X | do(t))} = \sum_{x}{P(Y|T,X) p(X)}$
  • 여기서 $P(Y | do(t))$는 intervene(개입; 실험) 을 통해 생성된 데이터에서 $T$가 $Y$에 미치는 영향을 측정한 것이므로, 이것이 우리가 구하고자 하는 인과 효과(Causation)입니다.
  • 즉, 인과 효과는 $\sum_{x}{p(Y|T,X)p(X)}$ 라고 할 수 있습니다.

 

그렇다면, intervene 없이 관찰된 observational data로 구한 $T$가 $Y$에 미치는 Associaton은 어떨까요?

  • $p(Y|T) = \sum_{X}{p(Y,X|T)} = \sum_{X}{p(Y|T,X)p(X|T)}$

여기서 causation과 association의 차이가 나타납니다. $P(X)$와 $P(X|T)$항이 다른 것이지요

  • Causation : $p(Y | do(t))= \sum_{X}{p(Y,X | do(t))} =\sum_{X}{P(Y|T,X) p(X)}$
  • Association : $p(Y|T)= \sum_{X}{p(Y,X|T)} =\sum_{X}{p(Y|T,X) p(X|T)}$

Backdoor Adjustment

위에서 intervene(do-operator)를 통해서 graph의 구조를 바꿈으로써 causation을 구할 수 있다고 하였습니다.

하지만, 우리에게 주어진 데이터가 intervene하지 않은 observational data라면 어떻게 causation을 구해야할까요?

바로 observational data의 graph에 어떤 조건을 추가하여 manipulated graph와 같은 구조로 만들어주면 됩니다(intervene한 것과 같은 효과를 내는 것이지요) 

여기서 backdoor adjustment가 등장하게 됩니다!

 

backdoor criterion

backdoor criterion은 backdoor path를 block할 수 있는 노드의 집합을 의미합니다. 

A set of variables $W$ satisfies the backdoor criterion relative to $T$ and $Y$ if the following are true:
1. $W$ blocks all backdoor paths from $T$ to $Y$.
2. $W$ does not contains any descendants of $T$.

1. 집합 $W$는 $T$에서 $Y$로 가는 모든 backdoor path를 block해야 합니다.

2. 집합 $W$는 $T$의 어느 자손도 포함하지 말아야 합니다.

 

이 두 조건을 만족하는 $W$를 알게 된다면 우리는 observational data의 graph와 manipulated graph를 같은 구조로 만들 수 있습니다.

위에서 설명드린 intervene을 통한 causation은 $p(Y | do(t))$ 이고 이는 다음과 같이 표현할 수 있습니다.

 

  • $P(Y | do(t)) = \sum_{W}{p(Y,W|do(t))} = \sum_{W}{p(Y|W,do(t)) p(W|do(t))}$

여기서 $W$(backdoor criterion)의 조건에 의해 $p(Y|W, do(t)) = p(Y|W, T)$ 가 되고, $p(W|do(t)) = p(W)$가 됩니다.

 

1. $p(Y|W, do(t)) = p(Y|W, T)$

  • backdoor criterion 1번 조건에 의해 $W$는 모든 backdoor path를 차단하므로 $T$로 들어오는 edge의 영향이 제거됩니다.
    • 좌변 : $do(t)$의 modularity assumption에 의해 T에 들어오는 edge의 영향이 제거된 graph
    • 우변 : $W$를 condition함으로써 $T$로 들어오는 edge의 영향을 제거(모든 backdoor path를 block)한 graph

2. $p(W|do(t)) = p(W)$

  • backdoor criterion 2번 조건에 의해 $W$는 $T$ 자손이 아니므로 $p(W|do(t))$은 $p(W)$가 됩니다.

 

즉, backdoor adjustment를 통해 우리는 observational data를 통해 causation($P(Y | do(t))$)을 규명할 수 있습니다.

  • $\sum_{W}{p(Y|W,T) p(W)}$

 

마치며

두서 없이 급하게 정리하였는데, 부족한 부분 있다면 피드백 주시면 감사하겠습니다 :)

긴 글 읽어주셔서 감사합니다!

 

 

 

글이 도움이 되셨다면 아래 클릭 한번 부탁드립니다 :)

반응형