일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- login crawling
- hadoop
- 공분산
- tensorflow text
- UDF
- GCP
- GenericGBQException
- subdag
- XAI
- top_k
- TensorFlow
- chatGPT
- youtube data
- grad-cam
- 상관관계
- BigQuery
- session 유지
- correlation
- Airflow
- Counterfactual Explanations
- 유튜브 API
- Retry
- API Gateway
- gather_nd
- integrated gradient
- spark udf
- requests
- airflow subdag
- API
- flask
- Today
- Total
데이터과학 삼학년
[계량 경제학] 도구변수(Instrumental variable) (Feat. 2SLS) 본문
회귀분석을 하기위해 사용하는 방법은 OLS (Ordinary Least Squares, 표준 회귀분석) 이다.
OLS는 BLUE 라는 개념이 뒷받침 되어야 한다.
BLUE : Best Linear Unbiased Estimator 로 가장 최적의 추정방법을 말한다.
OLS 는 GM(Gauss-Markov) 의 5가지 가정을 충족시켜야 한다
GM ASSUMTIONS은 아래와 같다.
위 각 가정은 아래 그림과 같은 관계성이 있어서 OLS에서 꼭 지켜져야한다
위 5가지 가정 중 충족이 가장 어려운 것은 endogeneity (내생성) 문제이다.
endogenetiy (내생성) 문제는 곧 Consistent에 영향을 주게되어 BLUE를 충족하는데 큰 장애가 된다.
여기서 endogenetiy (내생성) 에 대해 설명하면
기본적으로 독립변수 X는 종속변수 Y에 영향을 준다. 그러나 제 3의 다른 요인도 Y에 영향을 미치는데, 제 3의 다른 요인이 X에도 영향을 미치는 문제를 말한다.
내생성의 예를 보면 아래와 같이 3가지의 측면으로 나눌 수 있다.
1. 제 3의 요인이 X, Y 모두에 영향을 미치는 경우
2. X, Y 가 서로 영향을 미치는 경우 (올바른 예는 X가 Y에만 영향을 미쳐야함)
3. X 뿐만 아니라 X에서 어떤 오차범위를 갖는 X' 도 Y에 영향을 미치는 경우
도구변수는 위에서 설명한 Endogeneity (내생성) 문제를 해결하기 위한 한 방법이라고 보면 된다.
방법은 간단하다. 2번의 OLS를 거치는 방법이다. (Two-stage least square (2SLS))
Z -> X (=X^)
(X^) -> Y
독립변수 X에영향을 미치는 도구변수 Z를 찾아서 X를 회귀하는 회귀식을 만들고, 이를 이용해 추정된 X^ (X햇)을 이용하여 다시 Y를 추정하는 회귀식을 만드는 방법이다.
예를 들면, X,Y에 영향을 미치는 U가 있을때 U에 대한 상관성은 낮으면서, X에 대한 상관성이 높은 새로운 변수를 찾는 것. 그리고 그 새로운 변수를 도구변수라고 한다.
아래의 그림을 보면 바로 이해가 될 것이다.
X는 관찰되지 않은 독립 변수 혹은 여타의 이유 때문에 U에 휘둘릴 수 있다. 우리가 제거하고자 하는 교란 요인과 관계가 없다고 믿을 수 있는 변수 Z를 찾고 이 녀석이 X를 움직이는 것이 얼마나 Y를 변화시키는지를 대신 보겠다는 것이다.
즉, 실험에 준하는 외생성을 확보하게 해주는 것이 도구변수다.
출처 : sites.google.com/view/kaist-mis-session2017/part-1-econometrics
danbi-ncsoft.github.io/study/2019/08/07/IV.html
'Statistical Learning' 카테고리의 다른 글
[기초통계] 1종 오류와 2종 오류 (0) | 2020.11.05 |
---|---|
다중 회귀 분석 vs 다항 회귀 분석 (Multiple VS Polynomial regression analysis) (0) | 2020.11.04 |
Ridge VS Lasso regression, Visualized! (0) | 2020.08.14 |
[기초통계] correlation의 종류 (연속형 변수, 범주형 변수) 상관관계 (2) | 2020.08.14 |
[기초통계] Maximum Likelihood (0) | 2020.08.12 |