일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- grad-cam
- youtube data
- GenericGBQException
- top_k
- integrated gradient
- flask
- hadoop
- airflow subdag
- gather_nd
- BigQuery
- 공분산
- Retry
- Airflow
- tensorflow text
- requests
- TensorFlow
- login crawling
- chatGPT
- UDF
- correlation
- Counterfactual Explanations
- subdag
- XAI
- 유튜브 API
- API Gateway
- spark udf
- session 유지
- 상관관계
- GCP
- API
- Today
- Total
목록Machine Learning (95)
데이터과학 삼학년
그래프를 구성하는 가장 큰 요소는 노드와 엣지이다. 즉, 연결을 하고자하는 대상과 연결고리를 어떻게 표현할지에 대한 연구라고 생각하면 된다. Graph Types 1. Directed Graph - 두 노드 사이의 방향이 존재하는 그래프로 사람의 움직임 - 예를 들면 서울에서 부산으로 이동을 나타낸다던지, 은행에서 입금과 출금자간 재화의 흐름을 보여주는 등 각 노드간의 연결 관계를 나타낼 수 있음 2. Homogeneous / Heterogeneous Graph - Homogeneous : 동질의 / Heterogeneous : 이질의 라는 뜻에서 graph 유형을 추정해보면 - Homogeneous 그래프는 모든 노드가 같은 성질을 갖고 있는 형태로, 노드의 종류가 같은 것을 의미한다. 인물 관계를 나..
Feature Selection VS Feature Extraction - Feature Selection이나 Extraction 모두 Machine Learning 모델에서 과적합(overfitting)을 막기 위한 방법 - 차원 감소(Dimensionality reduction)을 통해 모델의 복잡성(complexity)를 줄이고 overfitting을 막는 개념 >> 여기서, 차원(feature 수)이 많아지면 모델은 overfitting의 위험이 높아지며, 차원이 많을 수록 학습에 필요한 데이터 수가 기하학적으로 많아진다는 단점이 있음 → 많은 모델러들은 최대한 차원을 줄이고자 노력함 - Extraction : 현존하는 데이터에서 가장 효과적인 Feature를 만들어 내는 것 - Selection..
이 자료는 고려대학교 김성범 교수님의 자료를 토대로 정리한 내용입니다. 해당 게시물의 자료 저작권은 김성범 교수님에게 있습니다. 불균형 데이터분석을 위한 샘플링 기법 불균형 데이터 분석 문제 - 데이터의 불균형으로 인해 모델을 학습시키면 정상데이터에 대해 분류 경계선을 만드는 모델로 학습이 될 것이기 때문에 잠재적인 이상 데이터에 대한 예측 정확도는 낮아지는 문제가 있음 불균형 데이터 해결방안 - 데이터를 조정하든지, 모델을 조정하던지 샘플링 기법 - 크게 언더 샘플링과 오버 샘플링으로 구분할 수 있음 - under sampling : 보유하고 있는 데이터의 크기를 조절하여 데이터의 비율을 맞춤 - over sampling : 임의의 데이터를 증식시켜 데이터의 비율을 맞춤 언더 샘플링 오버 샘플링 장점 ..
Information Gain - 데이터셋의 변화로 나타난 엔트로피(or surprise)의 감소량 - 일반적으로 decision tree를 만드는 로직으로 많이 이용되고 있고, 각각 변수의 information gain을 계산, information gain을 최대화 시킬수 있는 변수를 선택하는 것에 주로 쓰임 - 가장 좋은 dataset best split을 만들기 위해서도 사용됨 Skewed Probability Distribution (unsurprising): Low entropy. Balanced Probability Distribution (surprising): High entropy. - information이란 purity 즉 순도의 영향을 측정하는 것으로, 기존에 가지고 있던 엔트로피..
tensorflow_decision_forests 라는 라이브러리를 통해 손쉽게 tf기반의 randomforest, gradient boosting tree를 사용할 수 있다. 사실 sklearn이나 xgboost와 같은 라이브러리를 이용하면 되지만, 굳이 tensorflow를 이용하는 것은 Google Cloud Platform의 Bigquery에 모델을 등록하고, 예측을 하면, 서비스 적용과 운영측면에서 용이하기 때문에 사용한다. Bigquery ML은 custom model의 경우 tensorflow로 작성한 모델만을 지원하기 때문에... 그마저도 메모리를 많이 차지하는 무거운 모델은 등록할 수 가 없다. 그래서...하이퍼파라미터를 조절해서 비교적 shallow한 모델을 구성하여 등록해야한다. te..
LOF (Local Outlier Factor) - 밀도 기반의 이상탐지 방법으로 local을 나누어 local의 밀도를 이용해 각 point 마다 factor를 부여하여 이상치를 탐지하는 방법 - LOF는 각각의 관측치가 데이터 안에서 얼마나 벗어나 있는가에 대한 정도(이상치 정도)를 나타냄 - LOF의 가장 중요한 특징은 모든 데이터를 전체적으로 고려하는 것이 아니라, 해당 관측치의 주변 데이터(neighbor)를 이용하여 국소적(local) 관점으로 이상치 정도를 파악 - 아래 그림의 O2와 O3가 가진 주변 point들과의 거리를 보면 당연히 O2가 O3보다 짧을 테지만, 국소적인 밀도관점에서 보면 abnormal score는 O2가 O3보다 크게 끔 만드려는 것이 LOF의 개념 - 즉, 데이터 ..
PU Learning : Positive-Unlabeled Learning 개요 - 일반적으로 이진분류문제에서 도전적인 것은 아마 negotive label data를 가지고 있지 않는 문제임 - 이러한 이슈는 주로 imbalanced dataset에 대한 해결과제에서도 동반되는 문제임 - 단순히 unknown set을 sampling해서 처리하기도 하지만, 이러한 방법은 unknownset에 대한 오염이 발생하고, classifier 모델도 제대로 학습되지 않는 문제가 발생함 PU Learning - 기계학습은 학습데이터(방법)에 따라 supervised, unsupervised, semi-supervised로 나눌 수 있음 - supervised learning은 PN learning 이라고도 불리며..
Graph Neural Network - NN에서 Input의 형태가 그래프일때 사용하는 Neural Network - Fully-connected network, CNN (Convolutional Neural network), RNN (Recurrent Neural network)의 경우 보통벡터나 행렬 형태로 input이 주어짐 - GNN의 경우에는 input이 그래프 구조라는 특징이 있음 (ex. 영상에서의 graph, 분자구조 graph, Social graph ...) Graph를 Neural Network에 태워서 뭘 하려 하는가? 1. Node classification - 어떠한 노드가 어떤 그룹으로 묶일 것인가 (클러스터링) 2. Link prediction - 노드와 노드가 친구가 될 ..