일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- subdag
- grad-cam
- session 유지
- TensorFlow
- Retry
- GCP
- integrated gradient
- BigQuery
- flask
- GenericGBQException
- Airflow
- requests
- airflow subdag
- API Gateway
- spark udf
- gather_nd
- 유튜브 API
- hadoop
- API
- chatGPT
- XAI
- correlation
- UDF
- tensorflow text
- top_k
- 상관관계
- Counterfactual Explanations
- youtube data
- 공분산
- login crawling
- Today
- Total
목록Machine Learning (95)
데이터과학 삼학년
PCA (주성분 분석)은 가장 흔히 쓰이는 차원 축소 방법이다. 원리 - 데이터에 가장 가까운 초평면 (hyperplane)을 정의한 다음, 해당 평면에 투영(projection)시키는 방법 >> 공분산(편차) 매트릭스를 고유값 분해하여 주성분 행렬을 구하고, 줄이고자하는 차원 수(d)만큼의 주성분 행렬의 열을 곱하여 투영시키는 방법 분산 보존 - 저차원의 초평면에 데이터셋을 투영하기전에 올바른 초평면을 정의하는 것이 중요하다. - 아래 그림처럼 분산을 최대로 유지하는 축을 찾는다 --> 이 선택은 원본 데이터셋과 투영된 것 사이의 평균 제곱 거리를 최소화하는축이라 할 수 있다. - 분산을 최대로 보존한다 --> 정보의 손실을 최소화한다. 주성분 - 주성분은 데이터셋에서 분산을 최대인 축을 찾는 과정을 ..
딥러닝 학습 과정 중 gradient vanishing 과 gradient exploding 문제는 매우 크리티컬한 문제이다. gradient 소실, 폭주와 관련한 문제의 원인은 크게 초기화 활성화 함수 문제로 확인되었다. 글로럿과 벤지오에 의해서 세이비어 초기화, 글로럿 초기화, 그리고 Relu (변형된 relu -> 일부 뉴런이 0이외의 값을 출력하지 않는 dying Relu 문제로 인해 파생) 로 인해 gradient와 관련한 문제를 해결하였다. 여기에, 위 문제를 추가적으로 해소할 수 있는 방법이 Batch normalization 이다. (이외 gradient clipping 을 쓸 수도 있다) Batch normalization의 일반적 특징 과적합을 피하기 위한 기능 : dropout 과 유..
DBSCAN : 밀도기반의 클러스터링 기법 -> knn, k-means의 경우, 각 데이터 별 일정거리를 통해서 클러스터링을 하는 방법이라면, DBSCAN 은 데이터의 밀집도(밀도)를 통해 군집을 나누는 방법이다. DBSCAN의 장점은 비선형의 클러스터링이 가능하다는 것이다. 앱실론과 minspoint 수를 통해 클러스터링을 지정함 (파라미터) 앱실론 : 중심점으로부터 거리 minspoint : 앱실론 반경내에 샘플의 갯수 지정한 앱실론과 min 포인트수를 통해 밀도를 구하고 클러스터링 함 - 반경안에 들어오지 못한 points 는 noise point 코드 print(__doc__) import numpy as np from sklearn.cluster import DBSCAN from sklearn ..
Anomaly Detection; 이상탐지는 보다 나은 모델의 학습을 위해 선행되거나, 특수한 목적을 통해 이상치를 잡아내는 탐지 과정이라고 생각함 Anomlay Detection은 크게 아래와 같이 3가지로 나눌 수 있음 1. Point Anomaly Detection - 특정 point의 이상치를 감지 - 일반적으로 말하는 데이터내 outlier 2. Contextual Anomaly Detection - 연속적인 변화 패턴을 읽어 이상치 감지 - 맥락을 고려해서 예상변화와 동떨어진 결과 탐지 - 민감하면 정상상황에서도 이상탐지가 되고, 둔감하게 만들면 비정상상황에서 이상탐지를 놓칠 수 있음 3. Collective Anomaly Detection - 연관있는 2개 이상의 데이터의 변화 탐지 - 매출..
In [1]: import pandas as pd import numpy as np # Make numpy values easier to read. np.set_printoptions(precision=3, suppress=True) import tensorflow as tf from tensorflow.keras import layers from tensorflow.keras.layers.experimental import preprocessing In [2]: PROJECT_ID = "project_id" BUCKET_NAME = "bucket_name" REGION = "us-central1" In [3]: !gcloud config set project $PROJECT_ID !gcloud conf..
HTM networks에 대해 논한다. hidden layer 안의 neuron 끼리도 정보를 공유하는 networks.. 일반 nn 보다 더 많은 edge를 갖는 networks로 사람의 복잡한 뇌처럼 구조화하려 한 모델이다. 딥러닝과 큰 차이점은 back propagation 방식을 쓰지 않고 feed foward 방식으로 학습을 한다는 것이다. online learning이 가능하고, sequential 모델로 볼 수 있어 시계열 분석을 이용한 이상탐지 모델에 주로 사용되고 있는 추세이다. 출처 : https://github.com/llSourcell/numenta_explained llSourcell/numenta_explained This is the code for "Numenta Explai..
Regularization criteria(강사피셜) - dropout : 언제나 사용하면 좋다고 생각함 - L1 : weight가 0이 될수도 있다는 가능성을 의미 → parameter가 많아 조금 없애고 싶다는 생각이 들면 적용(crossed feature를 쓸 때는 L1을 쓰는 것이 낫다) - L2 : weight가 0에 가깝게 되는 것 의미 → L1과 비슷하지만 그래도 parameter를 다 가지고 가고 싶다면 L2 >> 프로젝트를 시작할때 일단 model이 overfitting이 되게 한다음에 regularization을 해나가는 것이야 AutoML for Text Classification - 기사제목과 출처를 가지고 분류도 함…→ 성격을 읽는 것 같음 > 기사제목, 뉴욕 타임즈 - Data ..
GANs (Generative Adversarial Networks) - 2014년 이안 굳펠로우가 만듦 - generator 와 discriminator 라는 2개의 모델이 서로 경합하며 학습됨 - discriminative model :판별자, generative model : 생성자 > 일반적인 ml은 discriminative 모델을 의미함(분류 모델-classifier) > generator는 noise에 기반해서 이것이 어떤 패턴을 가지고 있다는 것(만들어내는 방법)을 학습함 - 구성하는 방법 > 첫번째, 이미지를 판별할 수 있는 적합한 classifier model을 구축함(ex.DeepCNN) > 두번째, generator가 이미지를 만들어내도록 data를 계속 생성시킴 : DCGAN은 새..