일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 단순선형회귀
- 잔차의 성질
- 누락편의
- 인과추론
- 통계
- backdoor adjustment
- 네이버 뉴스
- rct
- 인과 추론
- Sharp RD
- Instrumental Variable
- Python
- 예제
- OVB
- confounder
- LU분해
- 사영
- residuals
- least square estimation
- simple linear regression
- 회귀불연속설계
- 크롤링
- Omitted Variable Bias
- 최소제곱법
- causal inference
- 교란 변수
- 선형대수
- 머신러닝
- HTML
- 교란변수
- Today
- Total
목록통계 (10)
Always awake,

본 포스팅에서는 이전 포스팅(잔차의 성질 (단순 선형 회귀)) 에서 다룬 잔차의 4가지 성질을 기하학적으로 이해해보는 내용을 작성하겠습니다 이전 포스팅과 마찬가지로 단순 선형 회귀에서 최소제곱법으로 계수를 추정하였을 때의 잔차의 성질에 대해 기술합니다. 단순 선형 회귀의 기하학적 이해 우선 단순 선형 회귀는 아래와 같습니다 $$ Y_i = \beta_0 + \beta_1 x_i + \epsilon_i \ \ \ for \ i=1,2, ... , n$$ $$ Y_1 = \beta_0 + \beta_1 x_1 + \epsilon_1 \\ Y_2 = \beta_0 + \beta_1 x_2 + \epsilon_2 \\ ... \\ Y_n = \beta_0 + \beta_1 x_n + \epsilon_n$$ 이는..
본 포스팅에서는 단순 선형 회귀의 잔차(오차의 추정량) 의 네 가지 성질에 대해 정리합니다. 단, 계수 추정 방식이 최소제곱법(Least Sqaure Estimation) 인 경우 잔차는 아래의 성질을 갖습니다. 단순 선형 회귀 계수 추정 아래와 같이 단순 선형 회귀 식이 있습니다 $$Y_i = \beta_0 + \beta_1 x_i + \epsilon_i$$ 최소제곱법을 이용하여 추정한 $\hat{\beta_0}$ 와 $\hat{\beta_1}$ 은 아래와 같습니다 $$ \hat{\beta_1} = \frac{S_{xY}}{S_{xx}} = \frac{\sum_i^n{(x_i - \bar{x})(Y_i - \bar{Y})}}{\sum_i^n{(x_i - \bar{x})^2}} $$ $$ \hat{\be..
단순 선형 회귀(Simple Linear Regression) 에서 LSE 를 사용하여 추정한 추정치가 SSE 를 최소화 하는 추정치인지 증명하는 포스팅입니다 :) 서론 단순 선형 회귀(Simple Linear Regression) 식이 있습니다. $$y_i = \beta_0 + \beta_1 x_i + \epsilon_i $$ 선형 회귀 모델에서 가지고 있는 데이터($x_i$, $y_i$) 를 잘 설명하기 위해 사용하는 방법 중 가장 보편적인 것이 오차를 최소화 하는 것입니다. 오차의 제곱 합(SSE; Sum of Squared Error)을 최소화 하는 $\beta_0$, $\beta_1$ 의 추정치($\hat{\beta_0}$, $\hat{\beta_1}$)를 구하는 것이지요. $$ SSE = \s..

본 포스팅은 조건부 기댓값에 대해 공부한 내용을 정리한 글입니다 :) 아래의 링크를 참고하였습니다 7.6 조건부기댓값과 예측 문제 — 데이터 사이언스 스쿨 .ipynb .pdf to have style consistency --> datascienceschool.net 조건부 확률 조건부 확률은 두 확률 변수 X,Y에 대해 하나의 확률 변수가 "주어졌을 때" 나머지 확률 변수가 나타날 확률을 의미합니다. $$p(Y|X) = \frac{p(Y \cap X)}{p(X)}$$ 예를 들어 이산 확률 변수 X,Y의 결합 확룔(joint distribution)이 아래와 같다고 합시다 X는 1,2,3의 값을 갖으며, Y = 1,2의 값을 갖을 수 있습니다. 그리고 가능한 모든 확률의 합은 1입니다 $Y$ $1$ $..

신뢰성 분석에 관한 내용을 정리한 포스팅입니다 :) 신뢰성(Reliability)이란 품질과 신뢰성은 개념이 다릅니다. 제품을 생산하고 품질 체크를 한 후 이상이 없으면 최종 완제품 판정을 하고 출고를 하죠 품질은 해당 제품을 생산하는 관점이라고 하면, 신뢰성은 출고 이후 제품을 실사용하게 될 때의 관점입니다. 즉 어떤 제품이나 시스템이 규정된 사용 조건, 의도하는 기간 동안 정해진 기능을 고장 없이 수행할 수 있는가에 관한 특성입니다. 신뢰성의 척도 신뢰성을 측정하는 대표적인 방식은 해당 제품 or 서비스의 고장이 발생할 때까지의 시간인 고장 시간($T$)입니다 수명분포(lifetime distribution) 고장이 발생할 때까지의 시간($T$)는 제품의 수명을 나타내므로 해당 변수의 분포를 수명분포..

로지스틱 회귀에 대한 개념, 수식 관련 포스팅입니다 :) 통계수업에서 가장 먼저 배우는 회귀 모델은 단순 선형 회귀(Simple Linear Regression)입니다. 종속변수와 독립변수가 각각 하나씩 존재하고, 독립변수와 종속변수의 관계가 선형인 회귀 모델입니다. 해당 모델은 종속변수가 실수값을 가지는 형태이고 가장 기초적인 모델이지만, 머신러닝을 배우면서 분류(Classification)문제를 접하게되면 해당 모델을 사용할 수 없게 됩니다. 그 이유는 분류 모델에서 종속변수는 하나의 class를 나타내는 "범주형" 변수이기 때문입니다. 즉, 실수형 변수와 다르게 값의 크기와 방향이 존재하지 않는 변수인 것입니다. 이런 문제로 탄생한 분류 모델이 로지스틱 회귀(Logistic Regression)입니..