일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- requests
- tensorflow text
- 유튜브 API
- XAI
- GenericGBQException
- flask
- session 유지
- chatGPT
- BigQuery
- airflow subdag
- 공분산
- GCP
- UDF
- API Gateway
- Retry
- top_k
- correlation
- gather_nd
- Counterfactual Explanations
- 상관관계
- TensorFlow
- spark udf
- subdag
- youtube data
- login crawling
- Airflow
- API
- grad-cam
- hadoop
- integrated gradient
- Today
- Total
목록전체 글 (424)
데이터과학 삼학년

최대 가능도 추정 모델의 차수를 찾은 다음(즉, p, d, q 값), 다음과 같은 매개변수 c, ϕ1,…,ϕp, θ1,…,θq 을 추정할 필요가 있습니다. R에서 ARIMA 모델을 계산할 때는, 최대 가능도 추정(maximum likelihood estimation) (MLE)을 사용합니다. 이 방법은 관찰한 데이터를 얻는 확률을 최대화하는 매개변수의 값을 찾습니다. ARIMA 모델에서는 MLE는 다음과 같은 양을 최소화하는 최소제곱(least squares) 추정과 비슷합니다. (5 장에서 다룬 회귀 모델에서, MLE는 최소제곱추정(least squares estimation)과 정확하게 같은 매개변수 추정값을 냅니다.) ARIMA 모델이 회귀 모델을 추정하는 것보다 훨씬 더 복잡하고, 서로 다른 소프..

다변량 시계열 분석이란, 시계열 분석에 있어 하나의 변수가 아닌 2개 이상의 변수의 시계열을 이용해 각 변수간 시계열에 따라 영향을 미치는 정도를 파악할수 있다. VAR (Vector Auto Regression) - 간단히 말하면, multiple regression의 개념을 도입한 자기회귀 모델(시계열 분석)이라고 생각하면 된다. (양 방향 관계(bi-directional relationship)) 위 식처럼, 두가지 이상의 variable 을 가지고 lag (시차값)은 얼만큼이나 할지 정해서 사용하면 된다! VAR을 이용하여 예측할 때 두 가지 요소를 판단하여 모델을 생성해야 한다. - (K로 쓰는) 얼마나 많은 변수 - (p로 쓰는) 얼마나 많은 시차값이 시스템에 있어야 하는지 >> VAR에서 추..

DFS(Depth First Search) : 깊이 우선 탐색 - 깊이(종)로 내려가면서 탐색 --> 전수조사 - Stack 의 개념을 사용하여 구현 > [1,2,3,4] --> [1,2,3] --> [1,2] --> [1] > [1,5,6,7] --> [1,5,6] --> [1,5] --> [1,5,8] > [1,9,10] BFS(Breadth First Search) : 너비 우선 탐색 - 너비(횡)로 내려가면서 탐색 --> 일부조사만의 끝날 수 있는 경우 - Queue 의 개념을 사용하여 구현 > [1] > [2,3,4] --> [3,4,5] --> [4,5,6,7] --> [5,6,7,8] > [6,7,8,9] --> [7,8,9,10] 참고 : coding-factory.tistory.com/6..

PCA (주성분 분석)은 가장 흔히 쓰이는 차원 축소 방법이다. 원리 - 데이터에 가장 가까운 초평면 (hyperplane)을 정의한 다음, 해당 평면에 투영(projection)시키는 방법 >> 공분산(편차) 매트릭스를 고유값 분해하여 주성분 행렬을 구하고, 줄이고자하는 차원 수(d)만큼의 주성분 행렬의 열을 곱하여 투영시키는 방법 분산 보존 - 저차원의 초평면에 데이터셋을 투영하기전에 올바른 초평면을 정의하는 것이 중요하다. - 아래 그림처럼 분산을 최대로 유지하는 축을 찾는다 --> 이 선택은 원본 데이터셋과 투영된 것 사이의 평균 제곱 거리를 최소화하는축이라 할 수 있다. - 분산을 최대로 보존한다 --> 정보의 손실을 최소화한다. 주성분 - 주성분은 데이터셋에서 분산을 최대인 축을 찾는 과정을 ..
딥러닝 학습 과정 중 gradient vanishing 과 gradient exploding 문제는 매우 크리티컬한 문제이다. gradient 소실, 폭주와 관련한 문제의 원인은 크게 초기화 활성화 함수 문제로 확인되었다. 글로럿과 벤지오에 의해서 세이비어 초기화, 글로럿 초기화, 그리고 Relu (변형된 relu -> 일부 뉴런이 0이외의 값을 출력하지 않는 dying Relu 문제로 인해 파생) 로 인해 gradient와 관련한 문제를 해결하였다. 여기에, 위 문제를 추가적으로 해소할 수 있는 방법이 Batch normalization 이다. (이외 gradient clipping 을 쓸 수도 있다) Batch normalization의 일반적 특징 과적합을 피하기 위한 기능 : dropout 과 유..

Many To One - single output 한개 기간이 들어가서 한개 기간 결과 출력 output의 갯수가 single(1개) 엄밀히 말하면, 바로 직전 시간대 한개가 들어가 다음 시간대 한개를 예측하는 것이므로 OneToOne 으로 볼 수 있지만, multivariate이기 때문에 ManyToOne으로 보았음 예측결과와 실제값 비교 (4개 feature 로 1개 feature 예측) Many To Many - multi output 한개 기간이 들어가서 한개 기간 결과 출력 output의 갯수가 multi(2개 이상) 예측결과와 실제값 비교 (4개 feature 로 4개 feature 예측) Many To One - multi output 여러 기간이 들어가서 한개 기간 결과 출력 output의..

Multivariate recurrence plots (2004) Abstract - multivariate timeseries data를 recurrence plots 으로 계산하는 접근법에 대한 제시 (joint recurrences 를 기반) - entropy 를 측도로 이용하여 연구 (joint Rényi entropy) 양방향의 무질서한 시스템 동기화 전이(변하는 지점)을 찾기 위함 1. Introduction - 궤적 데이터의 행동을 시각화 하는 방법 → Recurrence plots (RP) - 두개의 다른 동적 시스템 사이의 관계를 나타내기 위해 진화된 버전이 cross recurrence plot (CRP) - non-stationary 하고, 짧은 주기의 시계열 데이터에도 적용 가능 ..