일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- subdag
- GenericGBQException
- session 유지
- tensorflow text
- requests
- top_k
- API Gateway
- correlation
- 공분산
- API
- integrated gradient
- login crawling
- XAI
- UDF
- TensorFlow
- gather_nd
- grad-cam
- hadoop
- chatGPT
- airflow subdag
- Counterfactual Explanations
- 상관관계
- GCP
- Airflow
- Retry
- 유튜브 API
- BigQuery
- youtube data
- flask
- spark udf
- Today
- Total
데이터과학 삼학년
Optimaization, Generalizations, Sampling 본문
Optimization
- Defining ML models
> parameter 와 losses를 통한 optimization이 없으면 그냥 수학적 모델, function과 동일
> input과 output을 반복해서 넣으면서 그 둘의 관계를 이용하여 성능이 좋은 function을 만들어 냄
> parameters : 자동적으로 조절 function이 재생산(갱신)됨
> metrics : 모델의 궁극적인 최종 결과를 평가하기 위함(사람이 직관적으로 판단해야 할 것)
> losses : 최적 모델을 만들어내기 위한 평가 척도(계속해서 갱신...갱신)
- loss function
> error = actual value - predicted value
> RMSE를 쓰는 이유
: 데이터의 수가 다르면 비교하기가 어려워지기 때문에 n을 나눠 mean 값을 비교
: root를 이용해 unit단위를 맞춰줌
> comment : 데이터의 분포를 나타내는 통계적인 지표와 상관없이 linear를 적용하는 것이 옳은가?라는 질문에 대해 ML은 비교적 좋은 performance를 내는 것이 주목적, model의 변경과 hyperparameter를 통해 조절등 필요
> classifier에서 RMSE를 사용할 경우, 모델이 정답을 다 틀려도 loss는 1밖에 안되기 때문에 모델을 적합화시키는데 어려움
> 따라서, classifier 문제에서는 cross entropy loss를 이용하여 적용함 → 분류문제에서만 써야함, 만약 regression문제에서 쓴다면 정말 말도 안되는 큰 값을 갖게 될것
: 아래와 같은 예를 보면 정답이 틀릴 경우 높은 loss를 갖게 됨
: 완전히 틀렸을 경우(실제 0, 예측 1) , loss가 무한대로 수렴하게 됨
- Gradient descent
> 고차원의 환경에서 loss가 낮은 최적의 포인트를 찾기위함
> slope를 이용해 gradient가 0에 가까워지는 지점으로 반복하여 움직임
> stepsize를 dynamic하게 조절하며 바꿔줄 수 있나?? → 하이퍼 파라미터이지만 dynamic하게 바뀌면 조금 더 잘 fitting 될 것 같음 → 언제부터 줄일지는 모르니, 단순반복으로 하이퍼파라미터를 튜닝해가며 적용
> slope의 부호가 계속해서 바뀌면 자동으로 learning rate를 줄여주게 설정이 안되나?
: tensorflow의 알고리즘 중 이런 기능이 있는 알고리즘(최적화)이 존재한다고 얘기함(from. 구글 도쿄 관계자)
> batch 학습을 이용해 묶음으로 학습시키고 loss를 맞춰 좀 더 효율적으로 train할 수 있음
- optimization을 위한 여러가지 방법들
> https://www.tensorflow.org/api_docs/python/tf/keras/optimizers
> tensorflow optimizer 중 최고의 optimizer는 없지만 adam, rmsprop이 가장 많이 사용되고 있음(많이 건들수는 없음)
> 사용자가 전략을 세워 learning rate등 optimizer를 custom하는 것도 제공하고 있음
: tf.keras.optimizers.schedules → https://www.tensorflow.org/api_docs/python/tf/keras/optimizers/schedules
- 일반적인 선형 모델은 최저점이 하나지만, 딥러닝의 경우 최저점이 너무 여러개가 될 수 있기 때문에 이점을 유의해야함
- Performance metrics
> 모델의 성능을 보는 지표(accuracy, precision, recall 등)
> loss vs metrics
> cloud computing을 사용하는 것은 data의 volume때문 streaming data가 계속해서 들어옴
> False Negatives : prediction of mode(모델의 예측값) : 0 → Negative,
예측이 실제로 맞았냐 틀렸냐 : 틀렸어 → False
> precision 에서는 False Positive를 를 최소화 시키는 것( TP/(TP+FP) )
> recall 에서는 False Negative를 최소화 시키는 것( TP/(TP+FN) )
ex) 청소년에게 유해성인자료를 차단하는 문제에서는 성인물이면 1이라고 하면 이 문제에서는 FN을 줄이는 것에 중점을 맞추는 것이 나음(즉, recall을 올리는 것에 초점)
> 상황에 따라 precision, recall 어느것에 집중할지 결정해야함
> regression문제 metric → RMSE, MAE
> accuracy의 경우, 데이터가 imbalanced 하면 모델이 잘못되어도 좋게 나올 수 있으며, 특히 데이터가 많을 경우, accuracy의 변화가 크지 않을 수 있음
Generalizations and Sampling
- 추측하고자 하는 feature가 모델에 완전히 적합이 이뤄지지 않는 이유
> data에 noise가 있음
> 다른 영향(요인)이 있을 수 있음
- train error is similar to validation error → generalization 적합
- train error 가 크면 under fitting
- train error 와 validation error가 크면 over fitting
- 데이터셋을 나누고 배치를 이용하여 차례로 확인~!
- bq에서 sampling 할 때 해쉬함수를 이용하여 가져오는 것이 특정 기준에 따라 옳은 방향으로 나눌수 있음(나눈 데이터가 계속해서 같게 유지)
- 큰 양을 가지는 데이터에서 먼저 sampling한 이후 데이터 셋을 나눈후 학습시키는 것
> 전체 데이터에서 N/70 양 만큼의 데이터를 가지고 오고 데이터셋을 나눔
> 첫번째 조건에서 해쉬함수에 적용해서 나누는 N이 그 이후 조건에 적용되는 값보다 작아야함
'Machine Learning' 카테고리의 다른 글
Feature engineering 기초 & wide and deep model (0) | 2020.01.18 |
---|---|
Distributed training (feat.GCP CMLE) (0) | 2020.01.12 |
Deep Neural Networks 기초 (0) | 2020.01.12 |
Linear & Logistic regression (0) | 2020.01.10 |
Core Tensorflow (0) | 2020.01.10 |