일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- 머신러닝
- residuals
- 교란변수
- 네이버 뉴스
- 누락편의
- Omitted Variable Bias
- 선형대수
- backdoor adjustment
- least square estimation
- simple linear regression
- 교란 변수
- 통계
- HTML
- 사영
- OVB
- Sharp RD
- 인과추론
- 잔차의 성질
- confounder
- 크롤링
- 단순선형회귀
- rct
- Instrumental Variable
- 예제
- 회귀불연속설계
- Python
- 인과 추론
- 최소제곱법
- LU분해
- causal inference
- Today
- Total
목록전체 글 (47)
Always awake,

"본 포스팅은 인과 관계를 잘 알아야 하는 이유에 대한 개인적인 생각을 정리한 글입니다." correlation is not causation(상관 관계는 인과 관계가 아니다) "A가 B의 원인이다"라는 인과 관계는 A(원인)를 했을 때와 하지 않았을 때의 B(결과)가 다른 것을 의미합니다. 즉, 다른 조건은 모두 동일하게 유지한 채 어떤 하나만 바꿨을 때 결과가 달라지면 그것은 원인에 해당하는 것이죠. 우리는 흔히 어떤 상관 관계가 높은 두 사건을 보고 하나는 원인이고, 하나는 결과다!라고 판단하는 경우가 있습니다. 아래는 재미있는 상관 관계에 대한 예시입니다. 마가린 소비와 이혼율 두 사건은 상관관계가 0.99로 매우 높습니다. 그렇다면 마가린을 많이 소비할수록 이혼율이 높으므로 마가린은 이혼을 촉진..

"본 포스팅은 공분산과 상관계수를 개념적으로 이해하고, 수식을 통해 증명하기 위한 포스팅입니다" 확률과 통계학에서 회귀 모델이나 검정 시 공분산을 자주 접하게 됩니다. 두 변수의 선형적 상관성의 정도를 나타낸다는 설명이 수식을 접하면 잘 와닿지 않습니다. 그래서 간단한 기하학적 의미를 소개하고 이해하기 위한 포스팅을 준비해보았습니다. 공분산이란?(Covariance) 공분산은 두 확률 변수의 선형적인 상관성의 정도를 나타내는 값입니다. 확률변수 $X$, $Y$의 공분산 수식은 다음과 같습니다 $$ \begin{align*} Cov(X,Y) &= E[ (X-E(X)) (Y-E(Y)) ] \\ &= E(XY) - E(X) E(Y) \end{align*} $$ 어디서 많이 본 것 같지 않나요? 변수 자기 자신..

"본 포스팅은 네이버 뉴스의 title, url, 본문을 가져오는 크롤링을 설명하는 포스팅입니다 전 단계인 title, url 크롤링 방식을 확인하고 싶으신 분은 아래 링크(2탄)를 참고해주세요 :)" 히스토리 (2021.02.14) 네이버 웹 페이지 구성이 바뀌어 내용, 코드 수정 (2021.08.14) 네이버 웹 페이지 구성 변경, 언론사 필터링 검색 시 하나의 언론사만 선택 가능하여 내용, 코드 수정 [2탄] 쉽게 따라하는 네이버 뉴스 크롤링(python) "본 포스팅은 네이버 웹 크롤링 실제 python 코드를 작성하는 2탄입니다. 전 단계인 수행계획을 확인하고 싶으신 분들은 아래링크(1탄)을 참고해주세요 :)" 쉽게 따라하는 네이버 뉴스 크롤링(python) everyday-tech.tistor..

"아래한글 자동화를 위해 보안승인모듈을 PC에 등록하는 방법에 대한 포스팅입니다." python으로 아래한글 자동화를 하다보면 다음과 같이 보안승인 창이 계속 뜨게 됩니다. 매 파일을 열고 제어할 때마다 아래 그림의 "모두 허용(A)"를 눌러줘야 하죠 ㅠ 자동화 코드를 실행했음에도 매 파일마다 일일히 클릭을 해줘야 하는 아이러니한 상황이 펼쳐지게 됩니다. 여러 블로그를 찾고 시행착오를 겪은 결과 성공하였고 그 방법에 대해 공유하려합니다. 그래서 본 포스팅에선 한글과컴퓨터 홈페이지의 보안승인 모듈을 PC에 등록하여 이를 해결하는 포스팅을 진행하겠습니다 :) 1. 보안모듈 파일 저장 한글과컴퓨터 홈페이지 > 고객 지원 > 개발자료실 > 한/글 오토메이션용 보안승인모듈, 한/글 컨트롤용 보안승인모듈 오토메이션..

"딥러닝을 이용한 음성인식(STT) 설명에 관한 포스팅입니다." 2019년도 여름에 국비교육으로 음성 지능에 관한 강의를 듣게 되었습니다. 기존에 다루던 스프레드시트 형식의 데이터와 다른 형태의 신호 데이터를 처리하고 모델링하는 것을 보면서 전기전자 분야의 신호처리 이론이 많이 적용되는 것을 느꼈습니다. 제가 이해한 내용을 바탕으로 본 포스팅을 작성하려 합니다. 1탄에서는 음성 신호에 관한 이론과 디지털 신호로 처리하는 방법을 설명하고 2탄에서는 디지털화 한 신호에서 특징을 추출하는 방법을 설명하겠습니다. 마지막으로 3탄에서는 이를 딥러닝 모델에 적용하여 STT(Speech To Text) 모델을 만드는 법을 공유하겠습니다. 본 포스팅을 준비하며 부족하거나 추가 자료가 필요한 부분은 유투브의 "김도현 대..

"주성분 분석을 개념적으로 이해하기 위한 포스팅입니다" 데이터 분석과 머신러닝 모델에 대해 공부하다 보면 데이터 전처리가 매우 중요하다는 것을 알 수 있습니다. 그중 특히, input features(변수)의 수가 매우 많은 경우 고차원의 저주, 다중공선성 문제가 발생할 수 있습니다. 고차원의 저주 모델이 매우 복잡해져 학습 시간이 매우 길어지고, 모델이 일반화 되지 못해(overfitting) 예측력 등의 퍼포먼스가 저하되는 현상 다중공선성 문제 그리고 각 변수 간에 상관성이 있는 경우 모델이 제대로 fitting 되지 못하는 현상 (선형 회귀로 예를 들면 독립 변수의 계수가 불안정해짐) 이 두 가지 문제를 해결하는 방법 중 하나가 주성분 분석(Principal Component Analysis) 입니..