일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- GenericGBQException
- XAI
- requests
- API Gateway
- integrated gradient
- session 유지
- API
- top_k
- UDF
- flask
- Retry
- hadoop
- GCP
- grad-cam
- youtube data
- correlation
- tensorflow text
- 공분산
- subdag
- BigQuery
- login crawling
- spark udf
- TensorFlow
- airflow subdag
- 유튜브 API
- gather_nd
- 상관관계
- Airflow
- chatGPT
- Counterfactual Explanations
- Today
- Total
목록Statistical Learning (58)
데이터과학 삼학년

[DATA] credit card data [Oversampling & algorithm] - SMOTE, SMOTEEN, SMOTETOMEK, pandas upsampling, downsampling, algorithm > 로짓 모형을 통한 각 샘플링 초기 실험결과 method Class precision recall downsampling Class 0 0.99 0.98 Class 1 0.06 0.86 pandas_upsampling Class 0 0.86 0.67 Class 1 0.34 0.61 smote Class 0 0.87 0.50 Class 1 0.29 0.73 smoteenn Class 0 0.87 0.43 Class 1 0.28 0.78 smotetomek Class 0 0.86 0.65..

앞장에서 다뤘던 회귀, 분류의 문제는 label이 있는 지도 학습 (supervised learning)이다. 비지도 학습은 반응변수(response variable) Y가 없기때문에 예측하는 데에는 큰 관심은 없다. 대신, X를 통해서 흥미로운 것을 발견하고자 하는 것이 주목적으로 볼 수 있다. 대표적인 비지도학습인 주성분분석(principal componentes analysis) : 데이터를 시각화 하거나 전처리하는데 주로 사용 (차원(demensional)을 줄여줌) 클러스터링 (clustering) : 데이터 내의 서브 그룹화 위 2가지에 대해 집중적으로 알아보자. The Challenge of Unsupervised Learning 비지도학습이 어려운 이유는 특정한 목적이 없으며, 분석된 결과..

Support Vector Machine(SVM)은 분류문제를 푸는 최상의 분류기 중 하나로 간주되어 왔다. 서포트 벡터 머신은 Maximal margin classifier (최대 마진 분류기)를 확장하고 일반화한 방법이라고 볼 수 있다. 이 장에서는 최대 마진 분류기, 이를 확장한 서포트 벡터 classifier 그리고, 비선형을 수용하는 서포트벡터 머신에 대해 알아본다 Maximal margin classifier (최대 마진 분류기) maximal margin classifier는 hyperplane 을 정의하고, 이를 토대로 hyperplane으로 부터 일정 간격(margin) 텀을 둔 상태로 class를 분류하는 방법을 말한다. 얼핏 보면 LDA 와 유사한 개념이지만 margin을 두어 var..

왜도(Skewness) 왜도는 분포의 비대칭도를 나타내는 통계량이다. 정규분포, T분포와 같이 대칭인 분포의 경우 왜도가 0이다. 카이제곱분포와 같이 오른쪽으로 긴 꼬리를 가진 경우(skewed to the right) 왜도는 양수이다. 첨도(Kurtosis) 첨도는 분포의 꼬리부분의 길이와 중앙부분의 뾰족함에 대한 정보를 제공하는 통계량이다. 아주 well-defined된 통계량이 아니기 때문에 여전히 해석에 논란의 여지가 있다. 정규분포의 첨도는 0이다(기본적인 정의에 의하면 3이지만, 일반적으로 정규분포의 첨도를 0으로 만들기 위해 3을 빼서 정의하는 경우가 많다. 정규분포가 0이 되게 정의하는 첨도를 excess kurtosis라고 한다). 정규분포 처럼 첨도가 0인 경우를 Mesokurtic라고..

트리 기반의 회귀, 분류 방법을 알아본다.트리기반 방법은 설명변수를 다수의 영역으로 계층화(stratifying) 또는 분할(segmenting)하는 것이 포함된다.주어진 관측치에 대한 예측을 위해서는 보통 예측할 관측치가 속하는 영역의 훈련데이터들의 반응변수값의 평균 또는 최빈값을 사용하여 예측한다. 이장에서는 의사결정트리, 배깅, 랜덤 포레스트, 부스팅에 대해 알아본다. Regression Tree (회귀트리)회귀트리는 설명변수를 공간화하여 계층화 한 후 예측치가 속하는 공간에 해당되는 관측치들의 반응변수 평균값을 이용하여 회귀값을 예측한다. 먼저 회귀트리를 빌딩하는 과정은 크게 2단계이다.설명변수 공간생성. X1, X2, ..,Xp 에 대한 가능한 값들의 집합을 J개의 겹치지 않는 영역 R1, R2..

선형 모델은 해석력은 높지만 가정이 강한 단점을 가지고 있다. 이 장에서는 선형모델의 해석력을 여전히 가능한 높게 유지하면서 가정은 완화할 수 있는 방법들에 대해 알아본다. Polynomial regression (다항식 회귀) : X, X^2, X^3 을 설명변수로 사용 --> 삼차회귀 Step functions (계단함수) : K개의 영역으로 구분하여 변수생성 --> piecewise constant function Regression splines (회귀 스플라인) : X의 범위를 K개의 영역으로 나눠 각 영역 내에서 다항식을 구함 --> 다항식의 경계에서 매끄럽게 연결되거나 매듭 (knots) 되도록 제한됨 Smoothing splines (평활 스플라인) : 회귀 스플라인과 유사하지만 평활도 패..

Linear Model은 일반적으로 leat square 방법을 이용해 계수를 추정하여 모델을 구했다. (OLS)이번 장에서는 OLS 가 아닌 방법으로 linear model을 개선하는 방법을 알아본다. OLS는1) 오차의 평균이 0,2) 오차의 분산이 모든 x의 단위에서 등분산,3) 오차가 서로 uncorrelated인 경우linear한 모델 중 최적의 모델이다.(iid일 필요도 없다! 자세한 설명은 BLUE) 오차의 분포가 정규분포일 경우, OLS estimator는 maximum likelihood estimator와 동일한 결과를 얻음 이 전까지 least square의 범용성을 보았을때 왜 least square가 아닌 방법을 사용하는 이유는!!?몇몇 경우에, 전통적인 least square보다..

자료포락분석(DEA) Data Envelopment Analysis(DEA)는 투입요소와 산출 요소를 투입하여, 투입량 대비 산출량의 효율성을 나타내는 분석을 말한다. 예를 들어 개인, 부서, 조직간의 업무 겅솨를 상대적으로 평가도 가능하며, 운영기관의 경우, 투입한 요소 대비 운영효율이 얼마나 좋은지 상대적으로 평가 가능하다. 자료포락분석(DEA)는 의사결정 단위의 상대적 성과를 측정 평가하므로, 다양한 투입요소 대비 다양한 산출요소를 상대적으로 평가 가능하다. 여기서 말하는 상대적 효율정은 최적의 프론티어(생산 가능곡선) 을 도출한 후 평가 대상들이 프론티어를 기준으로 떨어져있는 정도를 측정하여 비교한다. 자료포락분석(DEA)을 사용할때 가장 중요한 요소가 효율성을 제대로 정의하는 것이다. 여기서 효..