Always awake,

조건부 확률과 기댓값 본문

통계

조건부 확률과 기댓값

호재 P.B 2021. 12. 26. 17:51

본 포스팅은 조건부 기댓값에 대해 공부한 내용을 정리한 글입니다 :)

아래의 링크를 참고하였습니다

 

7.6 조건부기댓값과 예측 문제 — 데이터 사이언스 스쿨

.ipynb .pdf to have style consistency -->

datascienceschool.net


조건부 확률

 

조건부 확률은 두 확률 변수 X,Y에 대해 하나의 확률 변수가 "주어졌을 때" 나머지 확률 변수가 나타날 확률을 의미합니다.

$$p(Y|X) = \frac{p(Y \cap X)}{p(X)}$$

 

예를 들어 이산 확률 변수 X,Y의 결합 확룔(joint distribution)이 아래와 같다고 합시다

X는 1,2,3의 값을 갖으며, Y = 1,2의 값을 갖을 수 있습니다.

그리고 가능한 모든 확률의 합은 1입니다

 

  $Y$
$1$ $2$
$X$ $1$ 2/12 1/12
$2$ 3/12 4/12
$3$ 1/12 1/12

 

여기서 $X$의 조건부에 대해 $Y$의 조건부 확률을 구하면 다음과 같습니다

 

  • $X=1$인 경우
    • $p(Y=1|X=1) = \large\frac{p(Y=1, X=1)}{p(X=1)} = \frac{p(Y=1, X=1)}{p(Y=1, X=1) + p(Y=2, X=1)} = \frac{2/12}{2/12 + 1/12}$ $= 2/3$ 
    • $p(Y=2|X=1) = \large\frac{p(Y=2, X=1)}{p(X=1)} = \frac{p(Y=2, X=1)}{p(Y=1, X=1) + p(Y=2, X=1)} = \frac{1/12}{2/12 + 1/12}$ $= 1/3$
  • $X=2$인 경우, $X=3$인 경우 모두 다음과 같이 구할 수 있습니다.

참고)

두 확률 변수가 독립인 경우 아래와 같이 조건부 부분을 지울 수 있습니다

독립인 경우 $p(X \cap Y) = p(X) p(Y)$ 이므로

조건부 확률은 다음과 같습니다

$$p(Y|X) = \frac{p(Y \cap X)}{p(X)} = \frac{p(Y) p(X)}{p(X)} = p(Y)$$

즉, $X$가 어떤 값으로 주어지든 상관 없이 $Y$가 나올 확률을 동일하다는 의미입니다

 

 

조건부 기댓값

이산 확률 변수에 대한 조건부 기댓값은 아래와 같이 구할 수 있습니다

이산 확률 변수 $X = x$로 주어진 경우, 이에 따른 이산 확률 변수 $Y$의 조건부 기댓값은 아래와 같이 계산합니다

$$E[Y|X = x] = \sum_{y \in Y}{y * p(Y = y | X = x)}$$

 

이를 위의 예시에 적용하여 계산하면 아래와 같습니다.

  • $X=1$인 경우, $E[Y | X=1] = 1 * p(Y=1|X=1) + 2 * p(Y=2|X=1) = 1 * 2/3 + 2 * 1/3 = 4/3$
  • $X=2$인 경우, $E[Y | X=2] = 1 * p(Y=1|X=2) + 2 * p(Y=2|X=2) = 1 * 3/7 + 2 * 4/7 = 9/7$
  • $X=3$인 경우, $E[Y | X=3] = 1 * p(Y=1|X=3) + 2 * p(Y=2|X=3) = 1 * 1/2 + 2 * 1/2 = 3/2$

 

전체 기댓값의 법칙

조건부 기댓값은 특정 값에 따라(조건부에 해당하는 변수) 값이 확률적으로 나오는 "확률 변수" 입니다

따라서, 일반 확률 변수와 마찬가지로 기댓값을 구할 수 있습니다.

조건부 기댓값의 기댓값은 다음과 같습니다

 

$$E[ E[Y|X] | X] = E[Y]$$

 

이를 전체 기댓값의 법칙(Law of Total Expectation) 이라고 합니다

 

전체 기댓값의 법칙 증명

$X$, $Y$가 이산 확률 변수인 경우 증명하면 다음과 같습니다

 

$$E[ E[Y|X] | X]$$

$$= \sum_{x \in X}{p(X = x) * E[Y|X]}$$

$$= \sum_{x \in X}{p(X = x) \sum_{y \in Y}{y * p(Y=y | X = x)}}$$

$$=\sum_{x \in X} \sum_{y \in Y} {y * p(X=x) * p(Y=y | X=x)}$$

$$= \sum_{x \in X} \sum_{y \in Y} {y * p(X=x, Y=y)}$$

$$=\sum_{y \in Y} {y * p(Y=y)}$$

$$= E[Y]$$


마치며

조건부 확률 및 기댓값, 전체 기댓값의 법칙에 대해 어렴풋이 알고 있던 개념을 정리할 수 있었습니다

피드백은 항상 감사드립니다 :)

 

글이 도움이 되셨다면 아래 클릭 한번 부탁드립니다 :)

반응형

'통계' 카테고리의 다른 글

잔차의 성질 (단순 선형 회귀)  (0) 2023.05.28
MSE를 최소화 하는 추정량 (단순 선형 회귀)  (0) 2023.05.13
신뢰성 분석  (1) 2021.10.11
로지스틱 회귀(Logistic Regression)  (3) 2021.10.10
공분산과 상관계수  (11) 2020.09.20