일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- Python
- 누락편의
- Sharp RD
- 예제
- least square estimation
- 단순선형회귀
- confounder
- HTML
- causal inference
- simple linear regression
- 네이버 뉴스
- Instrumental Variable
- 회귀불연속설계
- 교란 변수
- 잔차의 성질
- LU분해
- 인과 추론
- 선형대수
- 최소제곱법
- Omitted Variable Bias
- 통계
- rct
- 교란변수
- backdoor adjustment
- 머신러닝
- residuals
- 크롤링
- OVB
- 사영
- 인과추론
- Today
- Total
목록머신러닝 (3)
Always awake,
현상 요약 Tree모델에서 train데이터로 학습하고, train 데이터로 예측하였을 때 예측값이 하나만 나오는 경우가 발생하여 원인을 확인하고자 한다 원인 생각 곰곰히 생각해본 결과 node가 분할되지 않았기 때문이라는 결론을 내렸다 즉, root node에서 분할되지 않았기 때문에(root node만 존재) 어떤 input feature가 들어와도 root node의 평균 값만 내뱉는 것이다 ※ 위의 현상이 발생한 ensemble 모델의 경우, 각 tree의 root node 평균값에 tree들의 가중치를 취하여 더한 값이 예측 값으로 나올 것이다 그러면 어떠한 경우에 분할이 발생하지 않을까? 각 모델 특성별로 root node에서 분할되지 않는 경우를 생각해 보았다 원인 1 data point(sa..

"딥러닝을 이용한 음성인식(STT) 설명에 관한 포스팅입니다." 2019년도 여름에 국비교육으로 음성 지능에 관한 강의를 듣게 되었습니다. 기존에 다루던 스프레드시트 형식의 데이터와 다른 형태의 신호 데이터를 처리하고 모델링하는 것을 보면서 전기전자 분야의 신호처리 이론이 많이 적용되는 것을 느꼈습니다. 제가 이해한 내용을 바탕으로 본 포스팅을 작성하려 합니다. 1탄에서는 음성 신호에 관한 이론과 디지털 신호로 처리하는 방법을 설명하고 2탄에서는 디지털화 한 신호에서 특징을 추출하는 방법을 설명하겠습니다. 마지막으로 3탄에서는 이를 딥러닝 모델에 적용하여 STT(Speech To Text) 모델을 만드는 법을 공유하겠습니다. 본 포스팅을 준비하며 부족하거나 추가 자료가 필요한 부분은 유투브의 "김도현 대..

"주성분 분석을 개념적으로 이해하기 위한 포스팅입니다" 데이터 분석과 머신러닝 모델에 대해 공부하다 보면 데이터 전처리가 매우 중요하다는 것을 알 수 있습니다. 그중 특히, input features(변수)의 수가 매우 많은 경우 고차원의 저주, 다중공선성 문제가 발생할 수 있습니다. 고차원의 저주 모델이 매우 복잡해져 학습 시간이 매우 길어지고, 모델이 일반화 되지 못해(overfitting) 예측력 등의 퍼포먼스가 저하되는 현상 다중공선성 문제 그리고 각 변수 간에 상관성이 있는 경우 모델이 제대로 fitting 되지 못하는 현상 (선형 회귀로 예를 들면 독립 변수의 계수가 불안정해짐) 이 두 가지 문제를 해결하는 방법 중 하나가 주성분 분석(Principal Component Analysis) 입니..