Statistical Learning

Outliers & leverage

Dan-k 2020. 11. 6. 11:34
반응형

1. Outliers.

response Y에 대한 outlier가 존재하면 모형 자체에 큰 영향을 주지는 못하지만 모델의 평가부분에서는 영향을 줄 수 있다는 개념이다.

> 실제 y 값이 추정된 y(hat) 값에 영향을 미치는 개념

 

 response Y에 아웃라이어가 있으면 당장 추정되는 모델에 대해 큰변화를 주지는 않지만 RSE나 R2 와 같은 평가척도는 낮게 나올 수 있어, 올바른 모델임에도 해석이 좋지 않게 나올 수 있다.

 


2. High-leverage points.

predictor X에 outlier가 있을 경우의 예를 말하는데, 이 부분은 매우 신중해야한다. 왜냐면 X의 일부를 제거하게 되면 모형 자체가 변할 수 있기 때문이다.

Comparing the left-hand  panels of Figures 3.12 and 3.13, we observe that removing the high leverage observation has a much more substantial impact on the least squares line than removing the outlier. In fact, high leverage observations tend to have a sizable impact on the estimated regression line.

 

일단 각 predictor X 간의 긴밀한 연관이 있다는 것을 볼 수 있는 지표로  leverage statistic을 아래 식으로부터 도출할 수 있다.

 

 

위 식으로부터 도출된 h 값을 가지고 predictor X 간의 관계를 그려볼때, 아래 그림의 왼쪽과 같이 그려지는 것은 서로간의 관계가 거의 없음을 의미하지만

오른쪽 그림과 같이 긴밀한 관계가 있을 때에는 high leverage가 있어 predictor X를 선택하기 어렵다.

그렇다고 predictor X를 무작정 제외하고 모형을 추정하는 것은 잘못된 추정결과를 얻을 수 있기 때문에 보수적인 접근이 필요하다.

 >> High leverage의 개념은 predictor X 에 아웃라이어가 있을 경우를 말한다. 이 경우는 X들의 제거는 모델에 아주 직접적으로 영향을 줄 수 있기때문에 매우 신중하게 아웃라이어 제거 방법을 고려해야한다.

728x90
반응형
LIST