일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- tensorflow text
- Counterfactual Explanations
- requests
- BigQuery
- 상관관계
- GCP
- integrated gradient
- UDF
- Airflow
- flask
- API Gateway
- 유튜브 API
- XAI
- TensorFlow
- spark udf
- API
- airflow subdag
- correlation
- top_k
- 공분산
- grad-cam
- gather_nd
- Retry
- login crawling
- hadoop
- youtube data
- subdag
- chatGPT
- GenericGBQException
- session 유지
- Today
- Total
목록Statistical Learning (55)
데이터과학 삼학년
회귀분석을 하기위해 사용하는 방법은 OLS (Ordinary Least Squares, 표준 회귀분석) 이다. OLS는 BLUE 라는 개념이 뒷받침 되어야 한다. BLUE : Best Linear Unbiased Estimator 로 가장 최적의 추정방법을 말한다. OLS 는 GM(Gauss-Markov) 의 5가지 가정을 충족시켜야 한다 GM ASSUMTIONS은 아래와 같다. 위 각 가정은 아래 그림과 같은 관계성이 있어서 OLS에서 꼭 지켜져야한다 위 5가지 가정 중 충족이 가장 어려운 것은 endogeneity (내생성) 문제이다. endogenetiy (내생성) 문제는 곧 Consistent에 영향을 주게되어 BLUE를 충족하는데 큰 장애가 된다. 여기서 endogenetiy (내생성) 에 대해..
Ridge VS Lasso regression, Visualized! Linear regression 일반적인 linear regression을 찾는 방법 기울기에 따라 loss 값을 표현한 그림은 오른쪽과 같고, 이때 가장 낮은 loss값을 갖는 기울기를 model로 선택하게 됨 규제가 없는 regression Regularization loss 에 무언가 함수를 더 추가하여 loss값을 조정하게 됨 예를 들면 l2 norm 규제를 준다고 하면, 아래 식처럼 줄 수 있음 Ridge regression L2 norm 을 규제로 갖는 regression model 람다 값에 따라 penalty 의 정도를 조절하는 모델을 만들 수 있음 Lasso regression L1 norm 을 규제로 갖는 regres..
상관계수 (correlation)의 종류에 대해 알아보고, 각 데이터의 종류에 맞는 상관관계 방법에 대해 소개한다.먼저 두개 자료의 상관관계를 비교할때크게 3가지 케이스로 나눌 수 있다.1. 연속형 - 연속형2. 범주형 - 범주형3. 연속형 - 범주형위 각 세가지 케이스에 대해 알맞는 correlation 방법을 살펴보자. 1. 연속형-연속형연속형-연속형의 상관계수 범위는 -1 ~ 1 사이로 나타낼 수 있다아래와 같이 크게 3가지 방법이 있다 Pearson correlation- 연속형-자료가 정규분포임을 가정하는 모수적 추론 방법이다- 위 방법은 자료간의 상관정도가 어느정도인지를 추론할 수 있는 장점이 있다예) 국어점수와 영어점수간의 상관관계 Kendall correlation- 순위척도 자료형에 대..
Maximum Likelihood 목적 : 데이터 분포를 맞추기 위한 최적의 방법을 찾는 것 다양한 데이터의 분포가 있는데 분포에 데이터를 맞춰서 넣고 싶은 것 (sampling에서의 개념으로도 볼 수 있을 듯) 예를 들어 데이터 셋을 정규분포에 맞추고 싶다면 데이터의 평균값이 최대 우도값을 가지는 분포를 찾으면 됨 만약 정규분포를 데이터의 평균값보다 작은 곳으로 보내게 되면 데이터의 평균값의 likelihood는 매우 작은 값을 가지게 될 것 각 데이터마다 likelihood 값을 추정하여 최대 likelihood 값을 갖는 곳으로 분포를 만들면 됨 아래 그림은 최대 우도 추정으로 평균값을 계산한 케이스임 최대 우도 추정으로 표준편차는 어떻게 구할수 있을까? 표준편차를 기준으로 likelihood를 가..
Probability vs Likelihood Probability (확률) 분포의 범위의 확률 값 예) 몸무게가 60~70kg일 확률 쥐들의 몸무게 분포가 정규분포에 해당한다고 가정하자. 평균 : 32g, 표준편차 : 2.5, 최댓값 : 40g, 최소값: 24g 아래의 면적이 32~34g 일 확률을 의미함 Likelihood (우도, 가능도) 지점에서의 확률 (point) y axis의 값이라고 생각하면 됨 (point 확률값) 요약 확률은 고정 분포 아래영역이며, 우도는 data point의 확률 값을 의미 *** Maximum Likelihood (최대우도추정)는 분포 평균값 데이터가 Likelihood의 최대값이 되도록 만들어 데이터 분포를 가정한 분포에 가깝게 하는 과정을 의미함 출처 : htt..
[DATA] credit card data [Oversampling & algorithm] - SMOTE, SMOTEEN, SMOTETOMEK, pandas upsampling, downsampling, algorithm > 로짓 모형을 통한 각 샘플링 초기 실험결과 method Class precision recall downsampling Class 0 0.99 0.98 Class 1 0.06 0.86 pandas_upsampling Class 0 0.86 0.67 Class 1 0.34 0.61 smote Class 0 0.87 0.50 Class 1 0.29 0.73 smoteenn Class 0 0.87 0.43 Class 1 0.28 0.78 smotetomek Class 0 0.86 0.65..
앞장에서 다뤘던 회귀, 분류의 문제는 label이 있는 지도 학습 (supervised learning)이다. 비지도 학습은 반응변수(response variable) Y가 없기때문에 예측하는 데에는 큰 관심은 없다. 대신, X를 통해서 흥미로운 것을 발견하고자 하는 것이 주목적으로 볼 수 있다. 대표적인 비지도학습인 주성분분석(principal componentes analysis) : 데이터를 시각화 하거나 전처리하는데 주로 사용 (차원(demensional)을 줄여줌) 클러스터링 (clustering) : 데이터 내의 서브 그룹화 위 2가지에 대해 집중적으로 알아보자. The Challenge of Unsupervised Learning 비지도학습이 어려운 이유는 특정한 목적이 없으며, 분석된 결과..
Support Vector Machine(SVM)은 분류문제를 푸는 최상의 분류기 중 하나로 간주되어 왔다. 서포트 벡터 머신은 Maximal margin classifier (최대 마진 분류기)를 확장하고 일반화한 방법이라고 볼 수 있다. 이 장에서는 최대 마진 분류기, 이를 확장한 서포트 벡터 classifier 그리고, 비선형을 수용하는 서포트벡터 머신에 대해 알아본다 Maximal margin classifier (최대 마진 분류기) maximal margin classifier는 hyperplane 을 정의하고, 이를 토대로 hyperplane으로 부터 일정 간격(margin) 텀을 둔 상태로 class를 분류하는 방법을 말한다. 얼핏 보면 LDA 와 유사한 개념이지만 margin을 두어 var..