일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- Python
- 최소제곱법
- Instrumental Variable
- 통계
- Omitted Variable Bias
- residuals
- 인과 추론
- 교란변수
- confounder
- 회귀불연속설계
- 예제
- 단순선형회귀
- HTML
- simple linear regression
- least square estimation
- 교란 변수
- 머신러닝
- LU분해
- 누락편의
- causal inference
- 네이버 뉴스
- OVB
- 사영
- 인과추론
- rct
- Sharp RD
- 선형대수
- 잔차의 성질
- 크롤링
- backdoor adjustment
- Today
- Total
Always awake,
correlation의 기하학적 의미 본문
팀원분께서 두 벡터의 correlation이 갖는 기하학적 의미에 대해 공유해주신 내용을 공부하여 정리해보았습니다 :)
(팀원분께 무한한 감사를! 👍)
사전 지식
correlation을 기하학적으로 이해하기 위해서는 벡터의 사영(projection)에 대한 이해가 필요합니다 (Orthogonal 벡터 만들기 참고)
두 벡터 →u=(u1,u2,...,un), →v=(v1,v2,...,vn)가 주어져 있고, 두 벡터의 각도가 θ일 때,
- 정리1. 두 벡터 →u, →v가 이루는 각도 θ의 코사인 값은 아래와 같다
cos(θ)=→u⋅→v|→u||→v|
- 정리2. 벡터 →u를 →v에 사영(projection)시킨 벡터는 아래와 같이 계산한다
→uproject to →v=→u⋅→v→v⋅→v→v
sampled correlation의 수식
먼저 sampled covariance 와 sampled correlation의 수식에 대해 살펴봅니다
sampled covariance
n개의 샘플을 가진 두 변수 →x=(x1,x2,...,xn), →y=(y1,y2,...,yn)의 sampled covariance는 아래와 같습니다
범위 : -∞ ~ ∞
Cov(→x,→y)=n∑i=1(xi−ˉx)(yi−ˉy)=(→x−ˉx)⋅(→y−ˉy)
sampled correlation
그리고 공분산을 normalize 한 것이 sampled correlation입니다
범위 : -1 ~ 1
Corr(→x,→y)=∑ni=1(xi−ˉx)(yi−ˉy)√∑ni=1(xi−ˉx)2√∑ni=1(yi−ˉy)2=(→x−ˉx)⋅(→y−ˉy)|→x−ˉx||→y−ˉy|
sample correlation의 기하학적 의미
위의 정리1의 수식을 보니 sampled correlation과 유사합니다 (→u가 →x−ˉx로, →v가 →y−ˉy 인 경우가 sampled correlation이 됩니다!)
즉, →x, →y의 sample correlation은 두 벡터 (→x, →y)에 각각의 sampled mean (ˉx, ˉy)을 빼서 구한 두 벡터 (→x−ˉx, →y−ˉy) 간 각도의 코사인 값과 같습니다
그렇다면 기하학적으로 sampled mean을 빼준다는 것은 어떤 의미일까요?
바로, →1 (1벡터; 모든 요소 값이 1인 벡터)에 사영(projection) 시킨다는 의미입니다

위의 정리2의 수식을 적용하여 →x=(x1,x2,...,xn)와 →y=(y1,y2,...,yn)를 각각 1벡터에 사영시킨 벡터는 아래와 같이 계산됩니다. 각 sample mean (ˉx, ˉy) 이 모든 요소 값인 벡터가 되는 것이지요
→xproject to →1=→x⋅→1→1⋅→1→1=∑ni=1xi∑ni=11→1=∑ni=1xin→1=ˉx→1=(ˉx,ˉx,...,ˉx)=→ˉx
→yproject to →1=...=(ˉy,ˉy,...,ˉy)=→ˉy

이를 해석하자면, 벡터 →x, →y에서 각각의 평균의 효과를 뺀 벡터 (→x−→ˉx, →y−→ˉy)를 구하고, 두 벡터 간의 각도(θ′)의 코사인 값이 두 벡터의 correlation입니다

확장
각 벡터 →x, →y의 평균 효과를 뺀(통제한) 벡터 (→x−→ˉx, →y−→ˉy) 간 각도의 코사인 값이 두 벡터 간 correlation입니다.
그리고 평균의 효과를 계산하기 위해 →1에 사영(projection)하였습니다.
그럼 일반화 하여 →1이 아닌 다른 벡터 →z에 사영한 후 구한 correlation은 무엇일까요?
해석하면 두 벡터 →x, →y에 →z의 효과를 제거(통제)하였다고 생각할 수 있습니다.
이렇게 구한 correlation을 partial correlation이라고 합니다
다음 포스팅에서는 partial correlatoin에 대해 알아보겠습니다 😊
마치며
변수 간의 상관성 등을 공부하다 보니 기하 공간에서의 이해는 정말 중요한 것 같습니다
앞으로 기하 공간에서의 개념 이해를 위해 공부를 많이 해야겠다는 생각이 듭니다
글 읽어주셔서 감사합니다
▼ 글이 도움이 되셨다면 아래 클릭 한번 부탁드립니다 :) ▼
'선형 대수' 카테고리의 다른 글
숄레스키 분해를 이용한 마할라노비스 거리 (0) | 2023.01.28 |
---|---|
가우스소거법으로 역행렬 구하기 (0) | 2023.01.28 |
Orthogonal 벡터 만들기 #2 (0) | 2022.03.07 |
Orthogonal 벡터 만들기 (0) | 2022.03.02 |
Least Square & Normal Equation (0) | 2022.02.19 |