일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- chatGPT
- GCP
- API Gateway
- 유튜브 API
- requests
- grad-cam
- subdag
- spark udf
- airflow subdag
- top_k
- XAI
- 상관관계
- youtube data
- GenericGBQException
- session 유지
- BigQuery
- integrated gradient
- Retry
- API
- 공분산
- gather_nd
- tensorflow text
- TensorFlow
- Counterfactual Explanations
- UDF
- hadoop
- login crawling
- correlation
- flask
- Airflow
- Today
- Total
목록Machine Learning (95)
데이터과학 삼학년
딥러닝에서 가장 튜닝하기 까다로운(?) 하이퍼 파라미터 중 하나는 learning rate 이다. Train 단계에서 learning rate를 직접 설정하기 보다 epoch의 정도나 epoch의 조건에 따라 learning rate를 자동으로 조절하여 학습시킬 수 있는 방법이 있다. 기본적으로 적용방법은 아래와 같이 만들어 model.fit의 callback에 넣어주면 된다. tf.keras.callbacks.LearningRateScheduler( schedule, verbose=0 ) 예시 lr_decay_cb = tf.keras.callbacks.LearningRateScheduler( lambda epoch: args.learning_rate + 0.02 * (0.5 ** (1 + epoch))..
음성을 문자로 변환하는 api를 소개한다. 보통 음성은 대표적인 커뮤니케이션 수단이지만, 분석을 할 때는 제약이 있다. 이에 음성을 텍스트로 변환하는 방법에 대해 알아보고자 한다. (Hidden Markov Model (HMM), deep neural network models are used to convert the audio into text.) Hidden Markov Model 을 이용하여 보통 음성을 텍스트로 변환한다. 대표적인 speech to text api로 Speech Recognition api와 pyaudio를 소개하려 한다. Speech Recognition Speech Recognition api 는 여러개의 api가 있는데 konlpy처럼... 여기서는 Google에서 제공해주..
Working with Sequence Model - sequence는 시계열적인 특성을 가짐 > time에 따라 변해가는 양상을 모델에 표현할 수 있음 - 자연어 처리도 마찬가지로 단어의 순서에 따라 영향을 미치기 때문에 적용할 필요 있음 - 이미지 모델에서는 sequence를 어떻게 적용할까? > 동영상과 같은 움직임이 들어가 있는 이미지의 경우 적용 가능 - 시퀀스 모델의 타입은 3가지로 볼수 있음 > one to sequence > sequence to one > sequence to sequence - 번역의 문제의 경우, sequence to sequence 로 볼 수 있음 > 번역할 것의 사이즈가 정해져서 사이즈만큼 변환 - 이미지 captioning 경우, one to sequence 인풋..
Going Faster and Deeper - 하드웨어의 성능을 높인다 → tpu를 사용할 경우, 메모리증대로 인해 좀 더빠를 수 있음 - inceptionnet, alexnet 등 을 통해 convolution의 성능이 입증됨 > 네트워크의 깊이가 깊어질수록 더욱 더 좋은 효과가 나고 있음 - batch normalization → hidden layer가 많이 적용될 때 계산된 양이 폭발할 수 있음 > batch nomarlization은 -1 ~ 1 사이의 값으로 스케일링함 - 학습속도가 빨라지게 하는 역할을 함 > standard scale로 가는데 스케일된 값에서 shift값과 scale을 맞춰주는 값을 적용함 감마 : scale, 베타 : shift - activation 함수에 들어가기 전에..
Dealing with Data Scarcity - transfer learning : boost, bagging 등 - 충분한 양의 레이블이 없는 데이터가 있을때 어떻게 해야할까? > Data augmentation, Transfer learning Data augmentation (데이터 증식) - 이미지의 경우, 회전시키거나 대칭 또는 일부분을 확대, 브루밍 등을 시켜서 데이터를 증식시킬 수 있음 - 국기 같은 경우는 대칭시킬수가 없지, 대칭시키면 아예 다른 label을 갖게 되는 경우 있음 - 때로는 작은 디테일이 더 정보를 줄 수 있음 - 예측시에 노이즈를 데이터에 추가하는 것은 노노노 - dataflow 등을 통해 pipeline을 구성하여 적용하는 것이 나음 - .cache()를 통해서 da..
Linear Models for Image Classification - MNIST 데이터에 대한 간략한 소개 : 손글씨 데이터 > 28*28 = 784의 매트릭스로 구성 > 각 classification label별로 확률을 예측함 → softmax function > sigmoid → binary-classifier 라서 쓸 수 없음 - softmax →멀티 클래스에서 적용 - 모델의 정확도를 향상시키기 위해 loss function을 씀 → 분류문제에서는 cross-entropy 함수 적용 - sequential로 keras model을 만든 다음 compile을 이용해 모델을 만듦 - num_epoch is None이면 계속해서 데이터를 집어 넣는 것을 의미 - custom estimator는 m..
In [1]: import networkx as nx In [ ]: Graph 는 vertex(node)와 edge로 구성되어 있다. 동그란 꼭지점을 vertex라고 하고, vertex를 잇는 선을 edge라고 한다. Symmetric Networks¶ In [2]: G_symmetric = nx.Graph() G_symmetric.add_edge('Amitabh Bachchan','Abhishek Bachchan') G_symmetric.add_edge('Amitabh Bachchan','Aamir Khan') G_symmetric.add_edge('Amitabh Bachchan','Akshay Kumar') G_sy..
Isolation Forest - Tree를 이용한 이상탐지를 위한 비지도학습 알고리즘 - Regression Decision Tree를 기반으로 실행 - Regression Tree 가 재귀 이진 분할을 이용하여 영역을 나누는 개념을 이용함 Random forest와 같이 feature를 random하게 선택함 선택된 feature의 maximum, minimum 값 사이의 split value를 이용해 tree 구현 Isolation Forest 구현 개념 - 일반적으로 정상 데이터의 경우, 더 많은 재귀 이진분할이 필요함. 반면에 비정상 데이터는 정상데이터에 비해 이진 분할이 덜 필요하게 된다는 개념에 착안하여 Tree로부터 anomaly를 판단하는 개념 → 예외는 정상에 비해 분리하기가 더 쉽다 ..