데이터과학 삼학년

AutoML TimeSeries forecasting 본문

GCP

AutoML TimeSeries forecasting

Dan-k 2020. 6. 2. 11:54
반응형

AutoML 테이블 시계열 회귀분석

 

1. 데이터세트 구성

    • 시계열 회귀 예측 모델을 위한 예측 데이터 세트 구성

 

 


2. 데이터 불러오기

  • Bigquery 로 부터 데이터 불러오기

  • 데이터에 대한 간략한 설명 볼 수 있음

    • 최소 1000개 rows 이상, feature 수 제한 있다고 함 (확인X)

 

 

  • feature 설정 

      • 독립 변수 : 시계열 FEATURE (타겟 feature, 식별자 열 제외한 모든 열)

      • 타겟 열(종속 변수) : AU

      • 시계열 식별자 열 : 한 행에서 열의 값마다 다른 시계열 정의 값이 하나면 모든 행이 한 시계열에 속하게 됨 (그냥 index 같음)

 

 

  • multi target feature 선정 불가능


3. 모델 학습

  • 예측 범위를 입력해주어야 현재 데이터에서 몇시간몇일 몇 주 몇 년뒤의 데이터까지 예측할지 결정

    • 학습 데이터의 단위에 따라 시간, 일, 주, 년 단위로 예측 범위 설정

    • 모델 평가를 위한 범위 설정

 

 

  • 최소 예측 시간단위 : 1시간 → 데이터도 예측 시간 단위에 맞게 interval을 맞춰줘야 함

 

 

 

  • 학습에 사용할 최대 시간 설정

  • 학습에 사용할 feature 선택 가능

 

 

 

4. 모델 평가

  • 모델 평가

 

 

 

  • 시각화 자료도 없고, 결과에 대한 설명도...영….


5. 모델 예측

- 예측할 데이터 path 입력

 

 

- 결과값 bq에 로드 남음
<project>.prediction_45days_tim_20200601063918_2020_06_01T04_05_44_116Z

 

 

 

 

시계열 이상탐지 활용가능성

  • AutoML 시계열 분석에서 1시간 대 회귀 예측 결과와 실제 데이터의 차이를 이용해 이상 탐지 활용 가능

  • AutoML 시계열의 학습 속도와 정확도를 생각했을 때 현재 운영중인 시계열 이상탐지에 비해 우월한 장점은 찾기 어려움

    • 예를 들어 시계열 이상탐지 feature가 200개 있다면, 200개의 autoML 시계열 모델 학습시켜, 예측값과 실제값을 비교해야 함 

  • 예측 관련한 새로운 프로젝트를 발굴하여 적용하는데 적절할 것으로 사료됨

 

728x90
반응형
LIST
Comments