일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- chatGPT
- 유튜브 API
- hadoop
- flask
- UDF
- GCP
- API
- requests
- session 유지
- 공분산
- airflow subdag
- Counterfactual Explanations
- spark udf
- XAI
- integrated gradient
- BigQuery
- subdag
- Retry
- API Gateway
- login crawling
- grad-cam
- GenericGBQException
- tensorflow text
- Airflow
- TensorFlow
- gather_nd
- top_k
- youtube data
- correlation
- 상관관계
- Today
- Total
목록Time Series Analysis (13)
데이터과학 삼학년
1. 시계열 데이터란?*시계열 데이터(Time Series Data)**는 시간에 따라 연속적으로 수집된 데이터를 말합니다. 주로 금융, 경제, 제조, 기상 예측, 주식 시장, IoT 센서 데이터 등에서 많이 사용됩니다. 시계열 데이터는 시간 축을 가지며, 시간에 따른 데이터의 흐름, 패턴, 변화 등을 분석하는 것이 특징입니다.예시: 주가 데이터(분/시간 단위), 날씨 데이터(일 단위), 매출 기록(월 단위)2. 시계열 데이터 분석의 필요성시계열 데이터 분석은 과거의 데이터를 통해 현재의 패턴을 이해하고, 미래의 값을 예측하거나 비정상적 현상을 탐지하는 데 유용합니다. 이를 통해 의사결정 과정에서 더 나은 판단을 내리고, 자원 배분이나 리스크 관리에 활용할 수 있습니다.시계열 분석의 주요 목적:트렌드 분..
Dynamic Time Warping - 와핑(warping)의 사전적의미는 뒤틀림, 휨 이라는 뜻 - 동적 시간 와핑은 이름과 같이 '속도 또는 길이에 따라 움직임이 다른 두 시계열간의 유사성(거리)을 측정'하는 알고리즘 - 그 거리가 최소화되는 방향으로 매칭시켜 누적 거리가 최소가 되는 warping(뒤틀림) 경로를 찾음 - DTW는 주로 그래픽, 비디오, 오디오와 같은 분야에서 사용되며, 의료분야에서 보행 유사성, 생체신호 분석에 사용, 자동음성 인식 분야에서 두각을 보이며 다른 속도를 가지는 음성을 인식 https://www.cs.ucr.edu/~eamonn/KAIS_2004_warping.pdf 코드 import numpy as np ## A noisy sine wave as query idx ..
최대 가능도 추정 모델의 차수를 찾은 다음(즉, p, d, q 값), 다음과 같은 매개변수 c, ϕ1,…,ϕp, θ1,…,θq 을 추정할 필요가 있습니다. R에서 ARIMA 모델을 계산할 때는, 최대 가능도 추정(maximum likelihood estimation) (MLE)을 사용합니다. 이 방법은 관찰한 데이터를 얻는 확률을 최대화하는 매개변수의 값을 찾습니다. ARIMA 모델에서는 MLE는 다음과 같은 양을 최소화하는 최소제곱(least squares) 추정과 비슷합니다. (5 장에서 다룬 회귀 모델에서, MLE는 최소제곱추정(least squares estimation)과 정확하게 같은 매개변수 추정값을 냅니다.) ARIMA 모델이 회귀 모델을 추정하는 것보다 훨씬 더 복잡하고, 서로 다른 소프..
다변량 시계열 분석이란, 시계열 분석에 있어 하나의 변수가 아닌 2개 이상의 변수의 시계열을 이용해 각 변수간 시계열에 따라 영향을 미치는 정도를 파악할수 있다. VAR (Vector Auto Regression) - 간단히 말하면, multiple regression의 개념을 도입한 자기회귀 모델(시계열 분석)이라고 생각하면 된다. (양 방향 관계(bi-directional relationship)) 위 식처럼, 두가지 이상의 variable 을 가지고 lag (시차값)은 얼만큼이나 할지 정해서 사용하면 된다! VAR을 이용하여 예측할 때 두 가지 요소를 판단하여 모델을 생성해야 한다. - (K로 쓰는) 얼마나 많은 변수 - (p로 쓰는) 얼마나 많은 시차값이 시스템에 있어야 하는지 >> VAR에서 추..
Many To One - single output 한개 기간이 들어가서 한개 기간 결과 출력 output의 갯수가 single(1개) 엄밀히 말하면, 바로 직전 시간대 한개가 들어가 다음 시간대 한개를 예측하는 것이므로 OneToOne 으로 볼 수 있지만, multivariate이기 때문에 ManyToOne으로 보았음 예측결과와 실제값 비교 (4개 feature 로 1개 feature 예측) Many To Many - multi output 한개 기간이 들어가서 한개 기간 결과 출력 output의 갯수가 multi(2개 이상) 예측결과와 실제값 비교 (4개 feature 로 4개 feature 예측) Many To One - multi output 여러 기간이 들어가서 한개 기간 결과 출력 output의..
pyts 라이브러리는 시계열 데이터를 분석하기 위한 여러 방법 툴을 가지고 있다. 시계열 데이터를 이미지화 시키는 방법 3가지에 대해 다뤄본다. 1. Recurrence Plot 2. Gramian Angular Field 3. Markov Transition Field In [1]: # !pip install pyts Imaging time series 1. Recurrence Plot Recurrence Plot은 궤적자료를 추출한 다음, 궤적사이의 pairwise 거리를 계산하여 plot으로 나타낸 것 $$ \vec{x}_i = (x_i, x_{i + \tau}, \ldots, x_{i + (m - 1)\tau}), \quad \forall i \in \{1, \ldots, n - (m - 1)\t..
Prophet python 튜토리얼 In [1]: # !pip install fbprophet Prophet for python prophet은 sklearn api 모델을 따름 즉, instance를 만들고 fit 과 predict를 이용하는 방식 input은 항상 ds와 y를 받음 ds : datestamp YYYY-MM-DD for a date or YYYY-MM-DD HH:MM:SS y : numeric한 값 (측정) In [2]: import pandas as pd from fbprophet import Prophet In [3]: df = pd.read_csv("prophet_practice.csv") # wikipeia 페이지 뷰 로그 수 데이터 In [4]: print('df shape:'..