일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 회귀불연속설계
- 네이버 뉴스
- 교란변수
- Sharp RD
- 인과 추론
- 크롤링
- 선형대수
- Python
- OVB
- least square estimation
- 잔차의 성질
- HTML
- 예제
- backdoor adjustment
- Instrumental Variable
- causal inference
- confounder
- rct
- 머신러닝
- 최소제곱법
- residuals
- simple linear regression
- 단순선형회귀
- LU분해
- 통계
- 사영
- Omitted Variable Bias
- 교란 변수
- 인과추론
- 누락편의
- Today
- Total
목록통계 (10)
Always awake,

"본 포스팅은 공분산과 상관계수를 개념적으로 이해하고, 수식을 통해 증명하기 위한 포스팅입니다" 확률과 통계학에서 회귀 모델이나 검정 시 공분산을 자주 접하게 됩니다. 두 변수의 선형적 상관성의 정도를 나타낸다는 설명이 수식을 접하면 잘 와닿지 않습니다. 그래서 간단한 기하학적 의미를 소개하고 이해하기 위한 포스팅을 준비해보았습니다. 공분산이란?(Covariance) 공분산은 두 확률 변수의 선형적인 상관성의 정도를 나타내는 값입니다. 확률변수 $X$, $Y$의 공분산 수식은 다음과 같습니다 $$ \begin{align*} Cov(X,Y) &= E[ (X-E(X)) (Y-E(Y)) ] \\ &= E(XY) - E(X) E(Y) \end{align*} $$ 어디서 많이 본 것 같지 않나요? 변수 자기 자신..

"주성분 분석을 개념적으로 이해하기 위한 포스팅입니다" 데이터 분석과 머신러닝 모델에 대해 공부하다 보면 데이터 전처리가 매우 중요하다는 것을 알 수 있습니다. 그중 특히, input features(변수)의 수가 매우 많은 경우 고차원의 저주, 다중공선성 문제가 발생할 수 있습니다. 고차원의 저주 모델이 매우 복잡해져 학습 시간이 매우 길어지고, 모델이 일반화 되지 못해(overfitting) 예측력 등의 퍼포먼스가 저하되는 현상 다중공선성 문제 그리고 각 변수 간에 상관성이 있는 경우 모델이 제대로 fitting 되지 못하는 현상 (선형 회귀로 예를 들면 독립 변수의 계수가 불안정해짐) 이 두 가지 문제를 해결하는 방법 중 하나가 주성분 분석(Principal Component Analysis) 입니..

"본 포스팅에서는 최대 우도 추정법의 개념을 설명하고자 합니다" 통계학에서 중요한 것 중 하나가 샘플(표본)을 통해서 모집단(전체 집단)을 추정하는 것입니다. 이 때, 모집단의 분포를 가정하고 표본의 특성에 따라 모수(parameter)를 추정하게 됩니다. ▶ 모수는 분포의 특성(모양)을 나타내는 지표와 같은 것입니다. 같은 분포라도 모수가 다르면 모양이 다르게 나타납니다. 예를 들면 같은 정규분포라도 모수인 평균($\mu$), 분산($\sigma^2$)이 다르면 다른 형태가 나타납니다. 출처 : https://ko.wikipedia.org/wiki/%EC%A0%95%EA%B7%9C_%EB%B6%84%ED%8F%AC 모수를 추정할 때 가장 많이 사용하는 방법이 최대 우도 추정법입니다. 최대 우도 추정법은..

"본 포스팅은 카이제곱 분포의 모양을 개념적으로 확인하기 위한 포스팅입니다" 학부 때 통계 강의에서 이산확률 분포, 연속형 확률 분포를 배우며 아무렇지 않게 넘어갔던 분포의 모양에 갑자기 궁금해졌습니다. 특히, 일반적인 지수 분포, 정규분포 등은 수식을 통해서 모양을 이해할 수 있었지만 카이제곱 분포, F 분포 등은 추상적으로 분포의 모양을 이해했었습니다. 카이제곱 분포의 정의 i.i.d 한 (identically independent distributed) 한 k개의 표준 정규분포의 확률 변수를 제곱한 후 모두 더한 것은 자유도가 k인 카이제곱분포를 따른다. 모양은 아래와 같습니다. 출처 : http://blog.naver.com/PostView.nhn?blogId=mykepzzang&logNo=220..