Optimaization, Generalizations, Sampling

250x250

Notice

Recent Posts

Recent Comments

Link

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Tags more

Archives

Today

Total

관리 메뉴

데이터과학 삼학년

Optimaization, Generalizations, Sampling 본문

Machine Learning

Optimaization, Generalizations, Sampling

Dan-k 2020. 1. 9. 15:51

Optimization

- Defining ML models

> parameter 와 losses를 통한 optimization이 없으면 그냥 수학적 모델, function과 동일

> input과 output을 반복해서 넣으면서 그 둘의 관계를 이용하여 성능이 좋은 function을 만들어 냄

> parameters : 자동적으로 조절 function이 재생산(갱신)됨

> metrics : 모델의 궁극적인 최종 결과를 평가하기 위함(사람이 직관적으로 판단해야 할 것)

> losses : 최적 모델을 만들어내기 위한 평가 척도(계속해서 갱신...갱신)

- loss function

> error = actual value - predicted value

> RMSE를 쓰는 이유

: 데이터의 수가 다르면 비교하기가 어려워지기 때문에 n을 나눠 mean 값을 비교

: root를 이용해 unit단위를 맞춰줌

> comment : 데이터의 분포를 나타내는 통계적인 지표와 상관없이 linear를 적용하는 것이 옳은가?라는 질문에 대해 ML은 비교적 좋은 performance를 내는 것이 주목적, model의 변경과 hyperparameter를 통해 조절등 필요

> classifier에서 RMSE를 사용할 경우, 모델이 정답을 다 틀려도 loss는 1밖에 안되기 때문에 모델을 적합화시키는데 어려움

> 따라서, classifier 문제에서는 cross entropy loss를 이용하여 적용함 → 분류문제에서만 써야함, 만약 regression문제에서 쓴다면 정말 말도 안되는 큰 값을 갖게 될것

: 아래와 같은 예를 보면 정답이 틀릴 경우 높은 loss를 갖게 됨

: 완전히 틀렸을 경우(실제 0, 예측 1) , loss가 무한대로 수렴하게 됨

- Gradient descent

> 고차원의 환경에서 loss가 낮은 최적의 포인트를 찾기위함

> slope를 이용해 gradient가 0에 가까워지는 지점으로 반복하여 움직임

> stepsize를 dynamic하게 조절하며 바꿔줄 수 있나?? → 하이퍼 파라미터이지만 dynamic하게 바뀌면 조금 더 잘 fitting 될 것 같음 → 언제부터 줄일지는 모르니, 단순반복으로 하이퍼파라미터를 튜닝해가며 적용

> slope의 부호가 계속해서 바뀌면 자동으로 learning rate를 줄여주게 설정이 안되나?

: tensorflow의 알고리즘 중 이런 기능이 있는 알고리즘(최적화)이 존재한다고 얘기함(from. 구글 도쿄 관계자)

> batch 학습을 이용해 묶음으로 학습시키고 loss를 맞춰 좀 더 효율적으로 train할 수 있음

- optimization을 위한 여러가지 방법들

> https://www.tensorflow.org/api_docs/python/tf/keras/optimizers

> tensorflow optimizer 중 최고의 optimizer는 없지만 adam, rmsprop이 가장 많이 사용되고 있음(많이 건들수는 없음)

> 사용자가 전략을 세워 learning rate등 optimizer를 custom하는 것도 제공하고 있음

: tf.keras.optimizers.schedules → https://www.tensorflow.org/api_docs/python/tf/keras/optimizers/schedules

- 일반적인 선형 모델은 최저점이 하나지만, 딥러닝의 경우 최저점이 너무 여러개가 될 수 있기 때문에 이점을 유의해야함

- Performance metrics

> 모델의 성능을 보는 지표(accuracy, precision, recall 등)

> loss vs metrics

> cloud computing을 사용하는 것은 data의 volume때문 streaming data가 계속해서 들어옴

> False Negatives : prediction of mode(모델의 예측값) : 0 → Negative,

예측이 실제로 맞았냐 틀렸냐 : 틀렸어 → False

> precision 에서는 False Positive를 를 최소화 시키는 것( TP/(TP+FP) )

> recall 에서는 False Negative를 최소화 시키는 것( TP/(TP+FN) )

ex) 청소년에게 유해성인자료를 차단하는 문제에서는 성인물이면 1이라고 하면 이 문제에서는 FN을 줄이는 것에 중점을 맞추는 것이 나음(즉, recall을 올리는 것에 초점)

> 상황에 따라 precision, recall 어느것에 집중할지 결정해야함

> regression문제 metric → RMSE, MAE

> accuracy의 경우, 데이터가 imbalanced 하면 모델이 잘못되어도 좋게 나올 수 있으며, 특히 데이터가 많을 경우, accuracy의 변화가 크지 않을 수 있음

Generalizations and Sampling

- 추측하고자 하는 feature가 모델에 완전히 적합이 이뤄지지 않는 이유

> data에 noise가 있음

> 다른 영향(요인)이 있을 수 있음

- train error is similar to validation error → generalization 적합

- train error 가 크면 under fitting

- train error 와 validation error가 크면 over fitting

- 데이터셋을 나누고 배치를 이용하여 차례로 확인~!

- bq에서 sampling 할 때 해쉬함수를 이용하여 가져오는 것이 특정 기준에 따라 옳은 방향으로 나눌수 있음(나눈 데이터가 계속해서 같게 유지)

- 큰 양을 가지는 데이터에서 먼저 sampling한 이후 데이터 셋을 나눈후 학습시키는 것

> 전체 데이터에서 N/70 양 만큼의 데이터를 가지고 오고 데이터셋을 나눔

> 첫번째 조건에서 해쉬함수에 적용해서 나누는 N이 그 이후 조건에 적용되는 값보다 작아야함

728x90

LIST

'Machine Learning' 카테고리의 다른 글

Feature engineering 기초 & wide and deep model (0)	2020.01.18
Distributed training (feat.GCP CMLE) (0)	2020.01.12
Deep Neural Networks 기초 (0)	2020.01.12
Linear & Logistic regression (0)	2020.01.10
Core Tensorflow (0)	2020.01.10

'Machine Learning' Related Articles

Comments

데이터과학 삼학년

Optimaization, Generalizations, Sampling 본문

Optimaization, Generalizations, Sampling

'Machine Learning' 카테고리의 다른 글

티스토리툴바