일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- youtube data
- GenericGBQException
- 상관관계
- chatGPT
- BigQuery
- session 유지
- 유튜브 API
- Airflow
- airflow subdag
- subdag
- Retry
- Counterfactual Explanations
- flask
- GCP
- UDF
- API
- API Gateway
- correlation
- TensorFlow
- gather_nd
- login crawling
- top_k
- spark udf
- XAI
- 공분산
- requests
- hadoop
- integrated gradient
- grad-cam
- tensorflow text
- Today
- Total
목록Statistical Learning (55)
데이터과학 삼학년
왜도(Skewness) 왜도는 분포의 비대칭도를 나타내는 통계량이다. 정규분포, T분포와 같이 대칭인 분포의 경우 왜도가 0이다. 카이제곱분포와 같이 오른쪽으로 긴 꼬리를 가진 경우(skewed to the right) 왜도는 양수이다. 첨도(Kurtosis) 첨도는 분포의 꼬리부분의 길이와 중앙부분의 뾰족함에 대한 정보를 제공하는 통계량이다. 아주 well-defined된 통계량이 아니기 때문에 여전히 해석에 논란의 여지가 있다. 정규분포의 첨도는 0이다(기본적인 정의에 의하면 3이지만, 일반적으로 정규분포의 첨도를 0으로 만들기 위해 3을 빼서 정의하는 경우가 많다. 정규분포가 0이 되게 정의하는 첨도를 excess kurtosis라고 한다). 정규분포 처럼 첨도가 0인 경우를 Mesokurtic라고..
트리 기반의 회귀, 분류 방법을 알아본다.트리기반 방법은 설명변수를 다수의 영역으로 계층화(stratifying) 또는 분할(segmenting)하는 것이 포함된다.주어진 관측치에 대한 예측을 위해서는 보통 예측할 관측치가 속하는 영역의 훈련데이터들의 반응변수값의 평균 또는 최빈값을 사용하여 예측한다. 이장에서는 의사결정트리, 배깅, 랜덤 포레스트, 부스팅에 대해 알아본다. Regression Tree (회귀트리)회귀트리는 설명변수를 공간화하여 계층화 한 후 예측치가 속하는 공간에 해당되는 관측치들의 반응변수 평균값을 이용하여 회귀값을 예측한다. 먼저 회귀트리를 빌딩하는 과정은 크게 2단계이다.설명변수 공간생성. X1, X2, ..,Xp 에 대한 가능한 값들의 집합을 J개의 겹치지 않는 영역 R1, R2..
선형 모델은 해석력은 높지만 가정이 강한 단점을 가지고 있다. 이 장에서는 선형모델의 해석력을 여전히 가능한 높게 유지하면서 가정은 완화할 수 있는 방법들에 대해 알아본다. Polynomial regression (다항식 회귀) : X, X^2, X^3 을 설명변수로 사용 --> 삼차회귀 Step functions (계단함수) : K개의 영역으로 구분하여 변수생성 --> piecewise constant function Regression splines (회귀 스플라인) : X의 범위를 K개의 영역으로 나눠 각 영역 내에서 다항식을 구함 --> 다항식의 경계에서 매끄럽게 연결되거나 매듭 (knots) 되도록 제한됨 Smoothing splines (평활 스플라인) : 회귀 스플라인과 유사하지만 평활도 패..
Linear Model은 일반적으로 leat square 방법을 이용해 계수를 추정하여 모델을 구했다. (OLS)이번 장에서는 OLS 가 아닌 방법으로 linear model을 개선하는 방법을 알아본다. OLS는1) 오차의 평균이 0,2) 오차의 분산이 모든 x의 단위에서 등분산,3) 오차가 서로 uncorrelated인 경우linear한 모델 중 최적의 모델이다.(iid일 필요도 없다! 자세한 설명은 BLUE) 오차의 분포가 정규분포일 경우, OLS estimator는 maximum likelihood estimator와 동일한 결과를 얻음 이 전까지 least square의 범용성을 보았을때 왜 least square가 아닌 방법을 사용하는 이유는!!?몇몇 경우에, 전통적인 least square보다..
자료포락분석(DEA) Data Envelopment Analysis(DEA)는 투입요소와 산출 요소를 투입하여, 투입량 대비 산출량의 효율성을 나타내는 분석을 말한다. 예를 들어 개인, 부서, 조직간의 업무 겅솨를 상대적으로 평가도 가능하며, 운영기관의 경우, 투입한 요소 대비 운영효율이 얼마나 좋은지 상대적으로 평가 가능하다. 자료포락분석(DEA)는 의사결정 단위의 상대적 성과를 측정 평가하므로, 다양한 투입요소 대비 다양한 산출요소를 상대적으로 평가 가능하다. 여기서 말하는 상대적 효율정은 최적의 프론티어(생산 가능곡선) 을 도출한 후 평가 대상들이 프론티어를 기준으로 떨어져있는 정도를 측정하여 비교한다. 자료포락분석(DEA)을 사용할때 가장 중요한 요소가 효율성을 제대로 정의하는 것이다. 여기서 효..
Resampling의 기법을 이용한 학습, 예측 방법에 대해 알아본다. Samping이란 모집단에서 모집단을 대표할 수 있는 표본을 뽑아내는 것을 말한다. Resampling methods은 이러한 sample을 반복적으로 뽑아내고 이를 이용해 model을 학습, 예측(검증)하는 기법을 말한다. 하나의 training set에 대해 수많은 sample을 뽑아내고, 이를 모델에 적합시켰을때 각 sample로 부터 추출된 결과를 비교한다. 즉, 데이터가 달라짐에 따라 결과가 어느 범위내에 있을지에 대해 평가가 가능하다. 이 장에선 대표적인 methods인 Cross-validation과 Bootstrap에 대해 알아본다 Cross-Validation test error VS training error - t..
분류문제를 풀기 위한 기초적인 방법들에 대해 소개한다. 선형회귀로는 분류문제를 해결하기가 어렵다. 물론 Binary Classification의 경우, True or False의 식으로 값이 커질 수록 True에 가깝다는 식으로 회귀모형으로 분류문제를 풀 수도 있지만 추정된 값이 1이 넘어가는 경우 혹은 값이 음수인 경우도 발생하기 때문에 사실 좋은 방법은 아닌것으로 보인다. 물론 1,2,3을 정도의 차이를 가지는 레이블(1:보통,2:위험,3:아주위험 등)의 분류에서는 유용하게 쓸 수도 있겠다. 그러나 분류문제는 분류에 맞게 고안된 방법을 쓰는 것이 가장 좋다 Logistic Regression 선형 모형을 log를 이용해 변환한 아래와 같은 식을 사용하면 0~1사이의 확률값으로 각 레이블을 분류할 수 ..
Kullback–Leibler divergence 은 두 확률간의 분포의 차이정도를 정량적으로 측정하는 방법이다. 어떤 이상적인 분포에 대해, 그 분포를 근사하는 다른 분포를 사용해 샘플링을 한다면 발생할 수 있는 정보 엔트로피 차이를 계산한다. 상대 엔트로피(relative entropy), 정보 획득량(information gain), 인포메이션 다이버전스(information divergence)라고도 한다. KL Divergence를 구하는 방법은 두확률간의 cross-entropy에서 자신의 entropy를 빼는 방법이다. 엔트로피는 정보이론에서 정보량을 의미하므로, KL Divergence는 정보량의 차이를 나타낸다고 볼 수 있다. 즉, KL-Divergence의 값이 작을 수록 두분포는 유사..