일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 선형대수
- OVB
- causal inference
- backdoor adjustment
- 네이버 뉴스
- 교란변수
- 인과추론
- confounder
- 최소제곱법
- Instrumental Variable
- 예제
- simple linear regression
- 교란 변수
- least square estimation
- 통계
- 회귀불연속설계
- 사영
- 인과 추론
- 크롤링
- HTML
- 잔차의 성질
- Omitted Variable Bias
- 머신러닝
- residuals
- Python
- rct
- LU분해
- 누락편의
- 단순선형회귀
- Sharp RD
- Today
- Total
목록이해 (2)
Always awake,

"본 포스팅은 공분산과 상관계수를 개념적으로 이해하고, 수식을 통해 증명하기 위한 포스팅입니다" 확률과 통계학에서 회귀 모델이나 검정 시 공분산을 자주 접하게 됩니다. 두 변수의 선형적 상관성의 정도를 나타낸다는 설명이 수식을 접하면 잘 와닿지 않습니다. 그래서 간단한 기하학적 의미를 소개하고 이해하기 위한 포스팅을 준비해보았습니다. 공분산이란?(Covariance) 공분산은 두 확률 변수의 선형적인 상관성의 정도를 나타내는 값입니다. 확률변수 $X$, $Y$의 공분산 수식은 다음과 같습니다 $$ \begin{align*} Cov(X,Y) &= E[ (X-E(X)) (Y-E(Y)) ] \\ &= E(XY) - E(X) E(Y) \end{align*} $$ 어디서 많이 본 것 같지 않나요? 변수 자기 자신..

"주성분 분석을 개념적으로 이해하기 위한 포스팅입니다" 데이터 분석과 머신러닝 모델에 대해 공부하다 보면 데이터 전처리가 매우 중요하다는 것을 알 수 있습니다. 그중 특히, input features(변수)의 수가 매우 많은 경우 고차원의 저주, 다중공선성 문제가 발생할 수 있습니다. 고차원의 저주 모델이 매우 복잡해져 학습 시간이 매우 길어지고, 모델이 일반화 되지 못해(overfitting) 예측력 등의 퍼포먼스가 저하되는 현상 다중공선성 문제 그리고 각 변수 간에 상관성이 있는 경우 모델이 제대로 fitting 되지 못하는 현상 (선형 회귀로 예를 들면 독립 변수의 계수가 불안정해짐) 이 두 가지 문제를 해결하는 방법 중 하나가 주성분 분석(Principal Component Analysis) 입니..