일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- integrated gradient
- 공분산
- spark udf
- XAI
- 유튜브 API
- grad-cam
- hadoop
- 상관관계
- session 유지
- tensorflow text
- TensorFlow
- subdag
- UDF
- login crawling
- airflow subdag
- Counterfactual Explanations
- requests
- flask
- BigQuery
- youtube data
- GenericGBQException
- top_k
- Retry
- API Gateway
- gather_nd
- API
- chatGPT
- GCP
- Airflow
- correlation
- Today
- Total
데이터과학 삼학년
VAR (Vector Auto Regression) - 다변량 시계열 분석 본문
다변량 시계열 분석이란, 시계열 분석에 있어 하나의 변수가 아닌 2개 이상의 변수의 시계열을 이용해 각 변수간 시계열에 따라 영향을 미치는 정도를 파악할수 있다.
VAR (Vector Auto Regression)
- 간단히 말하면, multiple regression의 개념을 도입한 자기회귀 모델(시계열 분석)이라고 생각하면 된다.
(양 방향 관계(bi-directional relationship))
위 식처럼, 두가지 이상의 variable 을 가지고 lag (시차값)은 얼만큼이나 할지 정해서 사용하면 된다!
VAR을 이용하여 예측할 때 두 가지 요소를 판단하여 모델을 생성해야 한다.
- (K로 쓰는) 얼마나 많은 변수
- (p로 쓰는) 얼마나 많은 시차값이 시스템에 있어야 하는지
>> VAR에서 추정할 계수의 수는 아래와 같다.
모델의 구성에 앞서 모델을 학습하기 위해 들어가는 데이터는 Stationary 해야한다.
Stationary time series / 정상성
stationary라는 뜻은 정적이라는 뜻이다. 또한 stationarity라 정상성이란 뜻인데, 데이터가 정상성을 가진다는 의미는 데이터의 평균과 분산이 안정되어 있어 분석하기 쉽다는 의미이기도 하다.
통상적으로 평균이 일정하지 않으면 차분을 취하고, 분산이 일정하지 않으면 변환을 취한다.
데이터가 정상성을 가지는지 확인하는 방법
- ADF 검정을 이용해 p-value 값으로 판정할 수 있으며,
- 데이터가 stationary 하지 않다면, 차분(differencing)을 통하여 stationary 하게 데이터를 구성하여 학습시키면 된다!
VAR 의 특징
- 추정할 계수가 많아지면, 예측에 들어오는 추정 오차가 커짐
- 실제로는 K를 작게 두고 서로 상관관계가 있는 (예측할 때 쓸모 있는) 변수만 포함
- 넣을 시차값(lag)의 수를 고를 때 흔히 정보기준(information criteria)을 사용
lag 을 얼만큼 할지 선택하는 방법
4가지 서로 다른 정보 기준 (AIC, HQ, SC, FPE)을 가지고 시차 p 값의 수를 고를 수 있음
- AIC 가 가장 작은 시점을 기준으로 lag 선택한 예
VAR 모델의 유용성
- 분명한 해석이 필요 없을 때 관련된 변수의 모임을 예측할 때
- (그랑거(Granger) 인과율(causality) 검정에 기초하여) 한 변수가 다른 것을 예측 할 때 유용한지 판단할 때
- 충격 반응 분석(impulse response analysis), 한 변수가 다른 한 변수의 갑작스럽지만 일시적인 변화에 반응하는 것을 분석할 때
- 예측 분산 분해를 예측할 때, 다른 변수의 효과의 결과가 각 변수의 예측 분산의 비율이 될 때
VAR 모델의 한계
- VAR 모델은 이론적이지 않다고 비판
- 이론적인 구조를 식에 반영하는 몇몇 경제학적 이론에 기초하여 세운 것이 아님
- 모든 변수는 시스템 안의 다른 모든 변수에 영향을 준다는 가정을 하기 때문에 추정한 계수를 해석하는 것이 어려움
- 딥러닝 모델에 비해서 떨어지는 정확도 (단기간 예측에 적합)
예제: 미국 소비 예측에 대한 VAR 모델
참조 : otexts.com/fppkr/VAR.html
'Time Series Analysis' 카테고리의 다른 글
Dynamic Time Warping(DTW) (0) | 2022.03.25 |
---|---|
모델 추정과 차수 선택 (퍼옴) (0) | 2021.02.01 |
Multivariate 시계열 데이터 LSTM 적용 케이스 예시 (3) | 2021.01.06 |
[RPs] 시계열 데이터 이미지화 (0) | 2021.01.04 |
Recurrence Plot (feat. pyts - Imaging time series) (0) | 2020.12.18 |