일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- subdag
- login crawling
- API
- 상관관계
- Counterfactual Explanations
- airflow subdag
- GenericGBQException
- TensorFlow
- hadoop
- UDF
- 유튜브 API
- Retry
- chatGPT
- gather_nd
- Airflow
- grad-cam
- integrated gradient
- correlation
- session 유지
- BigQuery
- XAI
- flask
- GCP
- API Gateway
- top_k
- spark udf
- 공분산
- youtube data
- tensorflow text
- requests
- Today
- Total
목록Machine Learning (95)
데이터과학 삼학년
Regularization - Test data와 Trainng data의 loss 차이가 크면 일반화하기가 어렵지 > overfitting을 막으면 loss의 차이가 줄을 것이야 - complex 한 경우 → feature, model 등 → overfitting이 일어날 수 있음 - complex 를 줄이려면 복잡한 feature가 필요할때만 들어가도록 자동화하는 것 필요 - Overfitting을 막는 몇가지 방법 > early stopping, dataset을 추가하는 방법(dataset augmentation), > 언어의 경우 dataset을 추가하려면 → 번역된 다른 나라 언어로 변환시켜서 데이터를 넣는 방법이 있음 - L1, L2 regularization > l1,l2 norm을 loss..
Overview - Data collection : 1. data house에 있는 경우 2. data가 없으면 beautifulsoup, selenium 등으로 데이터 수집 가능 - data가 이미 저장되어 있는 경우 > data correction > data processing > clean up > transformation - ML : AI, ML, DL → DS > ML은 function(모델을 의미하는)을 선택, DL은 neuralnet 선택(활성화함수 선택이 모델을 의미하는 것은 아님) - Good enough model > svm > random forest > linear & logistic regression - 주피터에서 show contextual help 누르면 쓰고 있는 함수들..
Big jobs, distributed training - parameter servers는 분산처리를 위한 뱅커와 같은 역할 > distributed가 될때 loss의 gradient값을 보내줌 > parameter server에서 받은 gradient들을 이용해 parameter들을 업데이트 시켜줌 > data parallelism을 위해 tf.estimator.train_and_evaluate 사용!! - 데이터 병렬화 > 각 worker에서 계산된 gradient 값들이 속도차에 의해서 parameter servers에 적용할때 중복된 것들이 일어날 수 있는데 이것은 상관없어, 모델이 학습되는데 영향을 받지 않는 다고 함(Large Scale Distributed Deep Networks , as..
Deep Neural Networks - DNN이란 아래 그림처럼 결국 linear regression의 모음이라 볼 수 있음 - 좀 더 복잡한(?) 모델이 되기 위해 중간 layer에서 non-linear한 변형 layer를 추가해야함(activation function) - tensorboard에 weight를 모니터링 할 수 있는 방법이 있고, relu의 경우에는 0이하 값은 모두 제로, 즉 layer에 연산된 결과가 모두 음수이면 0을 아웃풋으로 뽑아내는 케이스가 있기 때문에 이때, 다른 활성화 함수를 고려할 필요 있음 - hyper parameter를 튜닝하는 일반적인 방법 > hidden layer를 늘리면서, overfitting이 일어나면 > dropout 비율을 추가하며 바꿔줌 > lay..
Linear & logistic regression - logistic regression → cross entropy 함수와 비슷 - threshold를 잡고 이와 비교해 얼마나 차이가 나냐를 볼 수 있는 것은 linear로는 할 수가 없음 - 분류문제에서 threshold의 개념을 보고 정할 수 있는 방법 → roc curve > 왼쪽 상단에 가까워질 수록 정확도가 높은 좋은 모델이라 할 수있음 - ROC 커브에서 커브 아래 면적을 이용해 가능한 THRESHOLD를 정할 수 있음(AUC) Area Under Curve 머신러닝의 아주 기초인 Linear regression 과 Logitstic regression은 기본을 탄탄히! 결국 deep learning도 linear regression이다. ..
Core Tensorflow - Tensorflow → graph로 구성 - Rank4 3차원 cube 가 쌓여있는 상태로 이해할 수 있음(4차원) - tensorflow에서의 rank 개념은 dimension의 개수에 대한 것이라고 이해 - tensorflow는 어느 devices에서도 적용 가능 - tensorflow1.x vs tensorflow2.0 좀 다름...나중에 자세히 - core tensorflow 부터 tf.estimator 까지 올라갈수록 조금 이해하기 힘들수 있지만 더 쉽게 접근 가능 - binary로 결과를 리턴하기 전에 그래프짜놓고 한방에 feed하는 방식(session) - lazy evaluation을 피하고 바로 결과를 확인하기 위해서는 eager 모드를 사용하면 가능함 -..
Optimization - Defining ML models > parameter 와 losses를 통한 optimization이 없으면 그냥 수학적 모델, function과 동일 > input과 output을 반복해서 넣으면서 그 둘의 관계를 이용하여 성능이 좋은 function을 만들어 냄 > parameters : 자동적으로 조절 function이 재생산(갱신)됨 > metrics : 모델의 궁극적인 최종 결과를 평가하기 위함(사람이 직관적으로 판단해야 할 것) > losses : 최적 모델을 만들어내기 위한 평가 척도(계속해서 갱신...갱신) - loss function > error = actual value - predicted value > RMSE를 쓰는 이유 : 데이터의 수가 다르면 비교..