'Machine Learning' 카테고리의 글 목록 (12 Page)

250x250

Notice

Recent Posts

Recent Comments

Link

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Tags more

Archives

Today

Total

관리 메뉴

목록Machine Learning (95)

데이터과학 삼학년

Regularization

Regularization - Test data와 Trainng data의 loss 차이가 크면 일반화하기가 어렵지 > overfitting을 막으면 loss의 차이가 줄을 것이야 - complex 한 경우 → feature, model 등 → overfitting이 일어날 수 있음 - complex 를 줄이려면 복잡한 feature가 필요할때만 들어가도록 자동화하는 것 필요 - Overfitting을 막는 몇가지 방법 > early stopping, dataset을 추가하는 방법(dataset augmentation), > 언어의 경우 dataset을 추가하려면 → 번역된 다른 나라 언어로 변환시켜서 데이터를 넣는 방법이 있음 - L1, L2 regularization > l1,l2 norm을 loss..

Machine Learning 2020. 1. 18. 17:18

Feature engineering 기초 & wide and deep model

Overview - Data collection : 1. data house에 있는 경우 2. data가 없으면 beautifulsoup, selenium 등으로 데이터 수집 가능 - data가 이미 저장되어 있는 경우 > data correction > data processing > clean up > transformation - ML : AI, ML, DL → DS > ML은 function(모델을 의미하는)을 선택, DL은 neuralnet 선택(활성화함수 선택이 모델을 의미하는 것은 아님) - Good enough model > svm > random forest > linear & logistic regression - 주피터에서 show contextual help 누르면 쓰고 있는 함수들..

Machine Learning 2020. 1. 18. 17:16

Distributed training (feat.GCP CMLE)

Big jobs, distributed training - parameter servers는 분산처리를 위한 뱅커와 같은 역할 > distributed가 될때 loss의 gradient값을 보내줌 > parameter server에서 받은 gradient들을 이용해 parameter들을 업데이트 시켜줌 > data parallelism을 위해 tf.estimator.train_and_evaluate 사용!! - 데이터 병렬화 > 각 worker에서 계산된 gradient 값들이 속도차에 의해서 parameter servers에 적용할때 중복된 것들이 일어날 수 있는데 이것은 상관없어, 모델이 학습되는데 영향을 받지 않는 다고 함(Large Scale Distributed Deep Networks , as..

Machine Learning 2020. 1. 12. 00:42

Deep Neural Networks 기초

Deep Neural Networks - DNN이란 아래 그림처럼 결국 linear regression의 모음이라 볼 수 있음 - 좀 더 복잡한(?) 모델이 되기 위해 중간 layer에서 non-linear한 변형 layer를 추가해야함(activation function) - tensorboard에 weight를 모니터링 할 수 있는 방법이 있고, relu의 경우에는 0이하 값은 모두 제로, 즉 layer에 연산된 결과가 모두 음수이면 0을 아웃풋으로 뽑아내는 케이스가 있기 때문에 이때, 다른 활성화 함수를 고려할 필요 있음 - hyper parameter를 튜닝하는 일반적인 방법 > hidden layer를 늘리면서, overfitting이 일어나면 > dropout 비율을 추가하며 바꿔줌 > lay..

Machine Learning 2020. 1. 12. 00:40

Linear & Logistic regression

Linear & logistic regression - logistic regression → cross entropy 함수와 비슷 - threshold를 잡고 이와 비교해 얼마나 차이가 나냐를 볼 수 있는 것은 linear로는 할 수가 없음 - 분류문제에서 threshold의 개념을 보고 정할 수 있는 방법 → roc curve > 왼쪽 상단에 가까워질 수록 정확도가 높은 좋은 모델이라 할 수있음 - ROC 커브에서 커브 아래 면적을 이용해 가능한 THRESHOLD를 정할 수 있음(AUC) Area Under Curve 머신러닝의 아주 기초인 Linear regression 과 Logitstic regression은 기본을 탄탄히! 결국 deep learning도 linear regression이다. ..

Machine Learning 2020. 1. 10. 11:36

Core Tensorflow

Core Tensorflow - Tensorflow → graph로 구성 - Rank4 3차원 cube 가 쌓여있는 상태로 이해할 수 있음(4차원) - tensorflow에서의 rank 개념은 dimension의 개수에 대한 것이라고 이해 - tensorflow는 어느 devices에서도 적용 가능 - tensorflow1.x vs tensorflow2.0 좀 다름...나중에 자세히 - core tensorflow 부터 tf.estimator 까지 올라갈수록 조금 이해하기 힘들수 있지만 더 쉽게 접근 가능 - binary로 결과를 리턴하기 전에 그래프짜놓고 한방에 feed하는 방식(session) - lazy evaluation을 피하고 바로 결과를 확인하기 위해서는 eager 모드를 사용하면 가능함 -..

Machine Learning 2020. 1. 10. 11:08

Optimaization, Generalizations, Sampling

Optimization - Defining ML models > parameter 와 losses를 통한 optimization이 없으면 그냥 수학적 모델, function과 동일 > input과 output을 반복해서 넣으면서 그 둘의 관계를 이용하여 성능이 좋은 function을 만들어 냄 > parameters : 자동적으로 조절 function이 재생산(갱신)됨 > metrics : 모델의 궁극적인 최종 결과를 평가하기 위함(사람이 직관적으로 판단해야 할 것) > losses : 최적 모델을 만들어내기 위한 평가 척도(계속해서 갱신...갱신) - loss function > error = actual value - predicted value > RMSE를 쓰는 이유 : 데이터의 수가 다르면 비교..

Machine Learning 2020. 1. 9. 15:51

Prev 1 ··· 9 10 11 12 Next

목록Machine Learning (95)

데이터과학 삼학년

티스토리툴바