데이터과학 삼학년

Optimaization, Generalizations, Sampling 본문

Machine Learning

Optimaization, Generalizations, Sampling

Dan-k 2020. 1. 9. 15:51
반응형

Optimization

- Defining ML models

  > parameter 와 losses를 통한 optimization이 없으면 그냥 수학적 모델, function과 동일

  >  input과 output을 반복해서 넣으면서 그 둘의 관계를 이용하여 성능이 좋은 function을 만들어 냄

  > parameters : 자동적으로 조절 function이 재생산(갱신)됨

  > metrics : 모델의 궁극적인 최종 결과를 평가하기 위함(사람이 직관적으로 판단해야 할 것)

  > losses : 최적 모델을 만들어내기 위한 평가 척도(계속해서 갱신...갱신)

- loss function

  > error = actual value - predicted value

  > RMSE를 쓰는 이유 

    : 데이터의 수가 다르면 비교하기가 어려워지기 때문에 n을 나눠 mean 값을 비교

    : root를 이용해 unit단위를 맞춰줌

  > comment : 데이터의 분포를 나타내는 통계적인 지표와 상관없이 linear를 적용하는 것이 옳은가?라는 질문에 대해 ML은 비교적 좋은 performance를 내는 것이 주목적, model의 변경과 hyperparameter를 통해 조절등 필요

  > classifier에서 RMSE를 사용할 경우, 모델이 정답을 다 틀려도 loss는 1밖에 안되기 때문에 모델을 적합화시키는데 어려움 

  > 따라서, classifier 문제에서는 cross entropy loss를 이용하여 적용함 → 분류문제에서만 써야함, 만약 regression문제에서 쓴다면 정말 말도 안되는 큰 값을 갖게 될것

   : 아래와 같은 예를 보면 정답이 틀릴 경우 높은 loss를 갖게 됨

   : 완전히 틀렸을 경우(실제 0, 예측 1) , loss가 무한대로 수렴하게 됨

- Gradient descent

  > 고차원의 환경에서 loss가 낮은 최적의 포인트를 찾기위함

  > slope를 이용해 gradient가 0에 가까워지는 지점으로 반복하여 움직임

  > stepsize를 dynamic하게 조절하며 바꿔줄 수 있나?? → 하이퍼 파라미터이지만 dynamic하게 바뀌면 조금 더 잘 fitting 될 것 같음 → 언제부터 줄일지는 모르니, 단순반복으로 하이퍼파라미터를 튜닝해가며 적용

  > slope의 부호가 계속해서 바뀌면 자동으로 learning rate를 줄여주게 설정이 안되나?

    : tensorflow의 알고리즘 중 이런 기능이 있는 알고리즘(최적화)이 존재한다고 얘기함(from. 구글 도쿄 관계자)

  > batch 학습을 이용해 묶음으로 학습시키고 loss를 맞춰 좀 더 효율적으로 train할 수 있음

- optimization을 위한 여러가지 방법들

  > https://www.tensorflow.org/api_docs/python/tf/keras/optimizers

> tensorflow optimizer 중 최고의 optimizer는 없지만 adam, rmsprop이 가장 많이 사용되고 있음(많이 건들수는 없음)

 > 사용자가 전략을 세워 learning rate등 optimizer를 custom하는 것도 제공하고 있음

   : tf.keras.optimizers.schedules → https://www.tensorflow.org/api_docs/python/tf/keras/optimizers/schedules

- 일반적인 선형 모델은 최저점이 하나지만, 딥러닝의 경우 최저점이 너무 여러개가 될 수 있기 때문에 이점을 유의해야함

 

- Performance metrics

  > 모델의 성능을 보는 지표(accuracy, precision, recall 등) 

  > loss vs metrics

  > cloud computing을 사용하는 것은 data의 volume때문 streaming data가 계속해서 들어옴

 

  > False Negatives : prediction of mode(모델의 예측값) : 0 → Negative

                                   예측이 실제로 맞았냐 틀렸냐 : 틀렸어 → False

  > precision 에서는 False Positive를 를 최소화 시키는 것( TP/(TP+FP) )

  > recall 에서는 False Negative를 최소화 시키는 것( TP/(TP+FN) )

ex) 청소년에게 유해성인자료를 차단하는 문제에서는 성인물이면 1이라고 하면 이 문제에서는 FN을 줄이는 것에 중점을 맞추는 것이 나음(즉, recall을 올리는 것에 초점)

  >  상황에 따라 precision, recall 어느것에 집중할지 결정해야함  

  > regression문제 metric → RMSE, MAE

  > accuracy의 경우, 데이터가 imbalanced 하면 모델이 잘못되어도 좋게 나올 수 있으며, 특히 데이터가 많을 경우, accuracy의 변화가 크지 않을 수 있음

 

Generalizations and Sampling

- 추측하고자 하는 feature가 모델에 완전히 적합이 이뤄지지 않는 이유

  > data에 noise가 있음

  > 다른 영향(요인)이 있을 수 있음 

- train error is similar to validation error → generalization 적합

- train error 가 크면 under fitting

- train error 와 validation error가 크면 over fitting

- 데이터셋을 나누고 배치를 이용하여 차례로 확인~!

- bq에서 sampling 할 때 해쉬함수를 이용하여 가져오는 것이 특정 기준에 따라 옳은 방향으로 나눌수 있음(나눈 데이터가 계속해서 같게 유지)

- 큰 양을 가지는 데이터에서 먼저 sampling한 이후 데이터 셋을 나눈후 학습시키는 것

  > 전체 데이터에서 N/70 양 만큼의 데이터를 가지고 오고 데이터셋을 나눔

  > 첫번째 조건에서 해쉬함수에 적용해서 나누는 N이 그 이후 조건에 적용되는 값보다 작아야함  

 

728x90
반응형
LIST

'Machine Learning' 카테고리의 다른 글

Feature engineering 기초 & wide and deep model  (0) 2020.01.18
Distributed training (feat.GCP CMLE)  (0) 2020.01.12
Deep Neural Networks 기초  (0) 2020.01.12
Linear & Logistic regression  (0) 2020.01.10
Core Tensorflow  (0) 2020.01.10
Comments