일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- TensorFlow
- subdag
- flask
- correlation
- grad-cam
- Retry
- Airflow
- integrated gradient
- 유튜브 API
- spark udf
- gather_nd
- airflow subdag
- requests
- chatGPT
- login crawling
- 공분산
- XAI
- session 유지
- youtube data
- tensorflow text
- API Gateway
- GCP
- 상관관계
- Counterfactual Explanations
- GenericGBQException
- top_k
- BigQuery
- API
- hadoop
- UDF
- Today
- Total
목록전체 글 (424)
데이터과학 삼학년

DBSCAN : 밀도기반의 클러스터링 기법 -> knn, k-means의 경우, 각 데이터 별 일정거리를 통해서 클러스터링을 하는 방법이라면, DBSCAN 은 데이터의 밀집도(밀도)를 통해 군집을 나누는 방법이다. DBSCAN의 장점은 비선형의 클러스터링이 가능하다는 것이다. 앱실론과 minspoint 수를 통해 클러스터링을 지정함 (파라미터) 앱실론 : 중심점으로부터 거리 minspoint : 앱실론 반경내에 샘플의 갯수 지정한 앱실론과 min 포인트수를 통해 밀도를 구하고 클러스터링 함 - 반경안에 들어오지 못한 points 는 noise point 코드 print(__doc__) import numpy as np from sklearn.cluster import DBSCAN from sklearn ..

코루틴 (coroutine) 이란 cooperative routine을 의미하며, 서로 협력하는 루틴이라는 뜻이다. 메인 루틴과 서브 루틴처럼 종속된 관계가 아닌 대등한 관계로 동작되며, 특정시점마다 상대방의 코드를 실행 시킨다. 즉, 동시성 프로그램을 가능하도록 한 기술이라고 보면 된다. - main routine 이 대기중일때, sub routine을 통해 연산이후 다시 main routine으로 돌아오도록 하는 기술 ▼ 그림 41-2 코루틴의 동작 과정 위 그림처럼 코루틴은 함수가 종료되지 않은 상태에서 메인 루틴의 코드를 실행한 뒤 다시 돌아와서 코루틴의 코드를 실행한다. 일반 함수를 호출하면 코드를 한 번만 실행할 수 있지만, 코루틴은 코드를 여러 번 실행할 수 있습니다. 참고로 함수의 코드를 ..
모수 / 비모수 방법 비교 모수적 방법(parametric method) 정규성을 갖는다는 모수적 특성을 이용하는 방법 비모적 방법(nonparametric method) 정규성 검정에서 정규분포를 따르지 않는다고 증명되거나, 군당 30미만의 소규모 실험에서는 정규분포임을 가정할 수 없음 이러한 경우, 자료를 크기순으로 배열하여 순위를 매긴 후 순휘합을 통해 차이를 비교하는 순위합 검정 이용 가능 이러한 것은 비모수적 방법 중 하나임 분석 기법 모수통계 분석방법 빈도분석, T-test ,분산분석(ANOVA), 상관관계분석(correlation), 회귀분석(regression), 판별분석(discriminant analysis), 요인분석(factor analysis), 군집분석(cluster analys..
pyts 라이브러리는 시계열 데이터를 분석하기 위한 여러 방법 툴을 가지고 있다. 시계열 데이터를 이미지화 시키는 방법 3가지에 대해 다뤄본다. 1. Recurrence Plot 2. Gramian Angular Field 3. Markov Transition Field In [1]: # !pip install pyts Imaging time series 1. Recurrence Plot Recurrence Plot은 궤적자료를 추출한 다음, 궤적사이의 pairwise 거리를 계산하여 plot으로 나타낸 것 $$ \vec{x}_i = (x_i, x_{i + \tau}, \ldots, x_{i + (m - 1)\tau}), \quad \forall i \in \{1, \ldots, n - (m - 1)\t..

Prophet python 튜토리얼 In [1]: # !pip install fbprophet Prophet for python prophet은 sklearn api 모델을 따름 즉, instance를 만들고 fit 과 predict를 이용하는 방식 input은 항상 ds와 y를 받음 ds : datestamp YYYY-MM-DD for a date or YYYY-MM-DD HH:MM:SS y : numeric한 값 (측정) In [2]: import pandas as pd from fbprophet import Prophet In [3]: df = pd.read_csv("prophet_practice.csv") # wikipeia 페이지 뷰 로그 수 데이터 In [4]: print('df shape:'..

OLS (Ordinary Least Square) - 주로 선형회귀를 추정하는 방법에 사용 - 데이터에 이상치가 없다면, 좋은 추정이 가능함 - 어떤 추가적인 가정을 필요로 하지 않는다는 장점이 있음 > 다만, 이상치가 있을 경우, ROBUST한 결과를 얻기 어려움 Note: This is the same as minimizing the residuals of the regression model. MLE (Maxium Likelihood Estimation) - 주로 로지스틱 회귀(or probit)를 추정하는데 사용 - 데이터 분포가 특정 확률분포(정규분포) 를 따른 다는 가정이 있음 - 분석 결과가 ROBUST 하지만, 데이터 자체가 정규분포를 따르지 않을 경우, 실제와의 차이가 존재 The ord..

Forecasting at Scale (2018) - Prophet 소개 Abstract 1 Introduction 2 Features of Business Time Series 3 The Prophet Forecasting Model 3.1 The Trend Model 3.1.1 Nonlinear, Saturating Growth 3.1.2 Linear Trend with Changepoints 3.1.3 Automatic Changepoint Selection 3.1.4 Trend Forecast Uncertainty 3.2 Seasonality 3.3 Holidays and Events 3.4 Model Fitting 3.5 Analyst-in-the-Loop Modeling 4 Automating..

공분산 : 각 두 확률변수간의 편차곱의 기대값 공분산의 경우, 비교하는 확률 변수간 스케일로 인해 실제 관계가 높더라고 수치자체는 낮게 나올 수 있다. 이러한 문제를 해결하기위해 공분산을 스케일링하는 개념이 상관계수라고 할 수 있다. x와 y값이 얼마나 함께 같이 변동하는가 상관계수 : 공분산을 스케일링하는 개념 확률변수X가 있을때 우리가 흔히 이 분포를 나타낼때 쓰는것이 첫번째로 평균이고 두번째로 분산이다. 평균으로써 분포의 중간부분을 알아내고 분산으로써 분포가 얼마나 퍼져있는지 알아낸다. 더 알고싶으면 Skewness 혹은 직접 시각화 해보거나 방법이 있지만 우선 가장 쉽고 잘표현되는것이 평균과 분산이다. 그렇다면 확률변수가 2가지일때 이 확률분포들이 어떤모양으로 되어있는지를 알고싶을때 가장 먼저 X..