일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- Retry
- API
- gather_nd
- requests
- integrated gradient
- API Gateway
- 공분산
- spark udf
- session 유지
- chatGPT
- correlation
- 유튜브 API
- youtube data
- 상관관계
- GCP
- tensorflow text
- top_k
- XAI
- TensorFlow
- Airflow
- Counterfactual Explanations
- flask
- login crawling
- subdag
- GenericGBQException
- grad-cam
- UDF
- airflow subdag
- hadoop
- BigQuery
- Today
- Total
데이터과학 삼학년
AutoML TimeSeries forecasting 본문
AutoML 테이블 시계열 회귀분석
1. 데이터세트 구성
시계열 회귀 예측 모델을 위한 예측 데이터 세트 구성
2. 데이터 불러오기
Bigquery 로 부터 데이터 불러오기
데이터에 대한 간략한 설명 볼 수 있음
최소 1000개 rows 이상, feature 수 제한 있다고 함 (확인X)
feature 설정
독립 변수 : 시계열 FEATURE (타겟 feature, 식별자 열 제외한 모든 열)
타겟 열(종속 변수) : AU
시계열 식별자 열 : 한 행에서 열의 값마다 다른 시계열 정의 값이 하나면 모든 행이 한 시계열에 속하게 됨 (그냥 index 같음)
multi target feature 선정 불가능
3. 모델 학습
예측 범위를 입력해주어야 현재 데이터에서 몇시간몇일 몇 주 몇 년뒤의 데이터까지 예측할지 결정
학습 데이터의 단위에 따라 시간, 일, 주, 년 단위로 예측 범위 설정
모델 평가를 위한 범위 설정
최소 예측 시간단위 : 1시간 → 데이터도 예측 시간 단위에 맞게 interval을 맞춰줘야 함
학습에 사용할 최대 시간 설정
학습에 사용할 feature 선택 가능
4. 모델 평가
모델 평가
시각화 자료도 없고, 결과에 대한 설명도...영….
5. 모델 예측
- 예측할 데이터 path 입력
- 결과값 bq에 로드 남음
<project>.prediction_45days_tim_20200601063918_2020_06_01T04_05_44_116Z
시계열 이상탐지 활용가능성
AutoML 시계열 분석에서 1시간 대 회귀 예측 결과와 실제 데이터의 차이를 이용해 이상 탐지 활용 가능
AutoML 시계열의 학습 속도와 정확도를 생각했을 때 현재 운영중인 시계열 이상탐지에 비해 우월한 장점은 찾기 어려움
예를 들어 시계열 이상탐지 feature가 200개 있다면, 200개의 autoML 시계열 모델 학습시켜, 예측값과 실제값을 비교해야 함
예측 관련한 새로운 프로젝트를 발굴하여 적용하는데 적절할 것으로 사료됨
'GCP' 카테고리의 다른 글
pandas - GCP GCS 로 읽기, 쓰기 (0) | 2020.06.24 |
---|---|
GCP ai-platform (cloudML)에서 환경 설정 (라이브러리 추가)-setup.py (0) | 2020.06.24 |
Cloud Natural Language API (GCP) (0) | 2020.06.01 |
AutoML Natural Language 소개 (0) | 2020.05.22 |
Dataflow SQL (0) | 2020.04.06 |