일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- grad-cam
- requests
- flask
- session 유지
- login crawling
- top_k
- airflow subdag
- 유튜브 API
- GCP
- gather_nd
- TensorFlow
- tensorflow text
- 공분산
- spark udf
- 상관관계
- XAI
- hadoop
- youtube data
- API Gateway
- UDF
- integrated gradient
- correlation
- Retry
- GenericGBQException
- chatGPT
- API
- subdag
- Counterfactual Explanations
- BigQuery
- Airflow
- Today
- Total
목록Machine Learning (95)
데이터과학 삼학년

Regularization - Test data와 Trainng data의 loss 차이가 크면 일반화하기가 어렵지 > overfitting을 막으면 loss의 차이가 줄을 것이야 - complex 한 경우 → feature, model 등 → overfitting이 일어날 수 있음 - complex 를 줄이려면 복잡한 feature가 필요할때만 들어가도록 자동화하는 것 필요 - Overfitting을 막는 몇가지 방법 > early stopping, dataset을 추가하는 방법(dataset augmentation), > 언어의 경우 dataset을 추가하려면 → 번역된 다른 나라 언어로 변환시켜서 데이터를 넣는 방법이 있음 - L1, L2 regularization > l1,l2 norm을 loss..

Overview - Data collection : 1. data house에 있는 경우 2. data가 없으면 beautifulsoup, selenium 등으로 데이터 수집 가능 - data가 이미 저장되어 있는 경우 > data correction > data processing > clean up > transformation - ML : AI, ML, DL → DS > ML은 function(모델을 의미하는)을 선택, DL은 neuralnet 선택(활성화함수 선택이 모델을 의미하는 것은 아님) - Good enough model > svm > random forest > linear & logistic regression - 주피터에서 show contextual help 누르면 쓰고 있는 함수들..

Big jobs, distributed training - parameter servers는 분산처리를 위한 뱅커와 같은 역할 > distributed가 될때 loss의 gradient값을 보내줌 > parameter server에서 받은 gradient들을 이용해 parameter들을 업데이트 시켜줌 > data parallelism을 위해 tf.estimator.train_and_evaluate 사용!! - 데이터 병렬화 > 각 worker에서 계산된 gradient 값들이 속도차에 의해서 parameter servers에 적용할때 중복된 것들이 일어날 수 있는데 이것은 상관없어, 모델이 학습되는데 영향을 받지 않는 다고 함(Large Scale Distributed Deep Networks , as..

Deep Neural Networks - DNN이란 아래 그림처럼 결국 linear regression의 모음이라 볼 수 있음 - 좀 더 복잡한(?) 모델이 되기 위해 중간 layer에서 non-linear한 변형 layer를 추가해야함(activation function) - tensorboard에 weight를 모니터링 할 수 있는 방법이 있고, relu의 경우에는 0이하 값은 모두 제로, 즉 layer에 연산된 결과가 모두 음수이면 0을 아웃풋으로 뽑아내는 케이스가 있기 때문에 이때, 다른 활성화 함수를 고려할 필요 있음 - hyper parameter를 튜닝하는 일반적인 방법 > hidden layer를 늘리면서, overfitting이 일어나면 > dropout 비율을 추가하며 바꿔줌 > lay..

Linear & logistic regression - logistic regression → cross entropy 함수와 비슷 - threshold를 잡고 이와 비교해 얼마나 차이가 나냐를 볼 수 있는 것은 linear로는 할 수가 없음 - 분류문제에서 threshold의 개념을 보고 정할 수 있는 방법 → roc curve > 왼쪽 상단에 가까워질 수록 정확도가 높은 좋은 모델이라 할 수있음 - ROC 커브에서 커브 아래 면적을 이용해 가능한 THRESHOLD를 정할 수 있음(AUC) Area Under Curve 머신러닝의 아주 기초인 Linear regression 과 Logitstic regression은 기본을 탄탄히! 결국 deep learning도 linear regression이다. ..

Core Tensorflow - Tensorflow → graph로 구성 - Rank4 3차원 cube 가 쌓여있는 상태로 이해할 수 있음(4차원) - tensorflow에서의 rank 개념은 dimension의 개수에 대한 것이라고 이해 - tensorflow는 어느 devices에서도 적용 가능 - tensorflow1.x vs tensorflow2.0 좀 다름...나중에 자세히 - core tensorflow 부터 tf.estimator 까지 올라갈수록 조금 이해하기 힘들수 있지만 더 쉽게 접근 가능 - binary로 결과를 리턴하기 전에 그래프짜놓고 한방에 feed하는 방식(session) - lazy evaluation을 피하고 바로 결과를 확인하기 위해서는 eager 모드를 사용하면 가능함 -..

Optimization - Defining ML models > parameter 와 losses를 통한 optimization이 없으면 그냥 수학적 모델, function과 동일 > input과 output을 반복해서 넣으면서 그 둘의 관계를 이용하여 성능이 좋은 function을 만들어 냄 > parameters : 자동적으로 조절 function이 재생산(갱신)됨 > metrics : 모델의 궁극적인 최종 결과를 평가하기 위함(사람이 직관적으로 판단해야 할 것) > losses : 최적 모델을 만들어내기 위한 평가 척도(계속해서 갱신...갱신) - loss function > error = actual value - predicted value > RMSE를 쓰는 이유 : 데이터의 수가 다르면 비교..