데이터과학 삼학년

[ISLR] Linear Regression 본문

Statistical Learning

[ISLR] Linear Regression

Dan-k 2020. 2. 10. 17:07
반응형

선형모델의 대표적인 선형회귀는 지도학습 모델이다.

 

특히 LR은 모델의 해석과 추론에 매우 용이하지만, 복잡한 문제에 대한 예측정확도가 떨어지는 단점이 있다.

 

선형회귀는 많은 알고리즘의 기초 토대로 사용되고 있으며 deep learning의 구조를 보면 결국 딥러닝도 선형으로 만든 조합이다라고 볼 수 있다.

 

1. 선형회귀

선형회귀는 단순선형회귀와 다중선형회귀로 나눌 수 있는데

이것은 predictor X의 갯수 차이라고 보면된다.

 

 

 

단일회귀
다중회귀

 

 

기본 식은 아래와 같다.

 

 

 

 

 

 

2. 모델 추정 방법

대표적인 Parametirical model이라 볼수 있다.

그렇다면 선형회귀가 각 파라미터의 계수값을 추정하기 위해서 사용하는 것이 최소자승법이다.

 

 

 

 

 

3. 모델 평가방법

모델의 평가방법은 R스퀘어를 통한 모델의 정확성 정도나 p-value를 통한 각 변수와 y와의 관계성 등을 파악할 수 있다.

R스퀴어와 P-Value, F-통계량, t-통계량에 대한 것은 개인적으로..찾아보도록 하자

t-statistic은 각 변수와 response Y에 대한 통계량으로 약 5%의 여지를 남겨놓음

F-statistic은 여려번수를 동시에 고려하여 적용한 통계량임

 

 

 

 

 

 

4. Variable Selection

다중 회귀분석의 경우 많은 X를 활용한다고 모델의 정확성이 높아지는 것은 아니다. 즉, X와 Y간의 관계성을 파악하여 최적의 Variable을 select하여 모델을 만들수 있다.

 

• Forward selection : 변수를 null 부터 한개씩 추가해가며 selection하는 방법

We begin with the null model—a model that contains an intercept but no predictors. We then fit p simple linear regressions and add to the null model the variable that results in the lowest RSS. We then add to that model the variable that results in the lowest RSS for the new two-variable model. This approach is continued until some stopping rule is satisfied.

 

• Backward selection : 가능한한 변수를 다 넣고 한개씩 제거해가며 selection 하는 방법

단, 총 데이터의 개수 n이 파라미터의 개수 p보다 클때만 가능함 (n>p)

당연하겠지? 변수가 2개인 연립방정식풀때 식이 2개 이상 있어야 하는 것과 같은 것이지

We start with all variables in the model, and remove the variable with the largest p-value—that is, the variable 
that is the least statistically significant. The new (p − 1)-variable model is fit, and the variable with the largest p-value is removed. This procedure continues until a stopping rule is reached. For instance, we
may stop when all remaining variables have a p-value below some threshold.

 

• Mixed selection : Forward 와 Backward를 섞은 방법
Forward 방법으로 변수를 넣으면서 분석하여 threshold를 두고 이에 반할때 변수를 빼고 더하며 선택하는 방법

This is a combination of forward and backward selection. We start with no variables in the model, and as with forward selection, we add the variable that provides the best fit. We continue to add variables one-by-one. Of course, as we noted with the Advertising example, the p-values for variables can become larger as new predictors are added to the model. Hence, if at any point the p-value for one of the variables in the model rises above a certain threshold, then we remove that variable from the model. We continue
to perform these forward and backward steps until all variables in the model have a sufficiently low p-value, and all variables outside the model would have a large p-value if added to the model.

 

 

5. 카테고리형 변수 처리방법

더미변수를 만들어 처리함

 

 

 

 

 

6. Non-linear 한 문제

Cross-feature를 사용하던지, Polymomial(다항, e.g. x^2+x^3)를 사용하던지, 새로운 function을 이용하여 parameter 추정

we present a very simple way to directly extend the linear model to accommodate non-linear relationships, using polynomial regression.

예시)

 

 

 

 

 

7.Linear Regression의 대표적인 문제

1. Non-linearity of the response-predictor relationships.

Data가 선형적인 관계를 가지지 않으면 모델의 오차가 크게 나타난다.

따라서 데이터가 선형적인 관계를 갖는지에 대해서는 residual plot을 그려 감소하는 점이 보이는지 확인하면 된다.

 

 

 

 

선형회귀를 적용한 잔차들의 plot을 그린결과, 왼쪽 그림의 경우, U자 형의 오차의 변화를 보이므로 선형적인 데이터라고 볼 수 있다. 반면 오른쪽 그림은 residual plot의 변화가 거의 없어 데이터가 선형적이라고 보기 어렵다.

 

2. Correlation of error terms.

 

 

선형 모형의 error가 서로 상관관계를 갖게 되면 모형의 추정 자체가 어려워진다.

예를 들면 시계열 데이터의 경우 t 시간의 데이터가  t+1 시간의 데이터와 깊은 연관이 있기 때문에 이런 경우 선형적인 관계를 고려하기 어려운 문제가 있다.

 

 

 

 

 


3. Non-constant variance of error terms.

 

선형회귀는 기본적으로 특정 범위의 오차가 있다는 것을 가정하기 때문에 추정된 식들의 residual term이 어느정도 일정함을 보여야한다.
아래의 왼쪽그림은 에러텀이 일정치 않아 모형이 데이터와 맞지 않은 모습을 보여주며, 아래의 오른쪽 그림은 각 선형 모델들의 에러텀이 일정한것으로 볼 수 있다.

 

 


4. Outliers.

response Y에 대한 outlier가 존재하면 모형 자체에 큰 영향을 주지는 못하지만 모델의 평가부분에서는 영향을 줄 수 있다는 개념이다.

 

 

 

 response Y에 아웃라이어가 있으면 당장 추정되는 모델에 대해 큰변화를 주지는 않지만 RSE나 R2 와 같은 평가척도는 낮게 나올 수 있어, 올바른 모델임에도 해석이 좋지 않게 나올 수 있다.

 


5. High-leverage points.

predictor X에 outlier가 있을 경우의 예를 말하는데, 이 부분은 매우 신중해야한다. 왜냐면 X의 일부를 제거하게 되면 모형 자체가 변할 수 있기 때문이다.

 

 

Comparing the left-hand  panels of Figures 3.12 and 3.13, we observe that removing the high leverage observation has a much more substantial impact on the least squares line than removing the outlier. In fact, high leverage observations tend to have a sizable impact on the estimated regression line.

 

일단 각 predictor X 간의 긴밀한 연관이 있다는 것을 볼 수 있는 지표로  leverage statistic을 아래 식으로부터 도출할 수 있다.

 

 

 

 

위 식으로부터 도출된 h 값을 가지고 predictor X 간의 관계를 그려볼때, 아래 그림의 왼쪽과 같이 그려지는 것은 서로간의 관계가 거의 없음을 의미하지만

오른쪽 그림과 같이 긴밀한 관계가 있을 때에는 high leverage가 있어 predictor X를 선택하기 어렵다.

그렇다고 predictor X를 무작정 제외하고 모형을 추정하는 것은 잘못된 추정결과를 얻을 수 있기 때문에 보수적인 접근이 필요하다.

 

 

 >> High leverage의 개념은 predictor X 에 아웃라이어가 있을 경우를 말한다. 이 경우는 X들의 제거는 모델에 아주 직접적으로 영향을 줄 수 있기때문에 매우 신중하게 아웃라이어 제거 방법을 고려해야한다.


6. Collinearity. (공선성)

변수들간의 상관관계가 없어야 된다는 것과 비슷한 의미한다 --> 다중공선성 문제(multicollinearity)

어느 한 변수의 에러가 다른 변수의 에러에 영향을 미친다면 model을 fit하기 어려운 문제에 봉착하게 됨

상관관계가 높은 timeseries 데이터를 보면 패턴을 띄게 되는 것을 볼 수 있음...

상관관계가 높은 경우는 보통 

 

 

 

 두개의 변수간의 상관관계를 볼 수 있지만 세개이상의 변수들을 동시에 고려한 상관관계를 보기 위해서는 다중공선성을 활용하여 분석한다.

다중공선성 확인 방법
- variance inflation factor (VIF)

 

 

 

출처 : https://github.com/hyunblee/ISLR-with-Python, An Introduction to Statistical Learning with Applications in R

 

 

728x90
반응형
LIST
Comments