일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- top_k
- requests
- Counterfactual Explanations
- flask
- 상관관계
- Retry
- subdag
- API Gateway
- chatGPT
- TensorFlow
- integrated gradient
- youtube data
- 공분산
- correlation
- Airflow
- BigQuery
- login crawling
- gather_nd
- 유튜브 API
- grad-cam
- session 유지
- tensorflow text
- airflow subdag
- UDF
- spark udf
- hadoop
- XAI
- API
- GenericGBQException
- GCP
- Today
- Total
데이터과학 삼학년
Mutual Information_ 클러스터링 평가 척도 본문
클러스터링이 얼마나 잘 되었는지 평가하는 척도 중 하나인 Mutual Information에 대해 알아보자.
클러스터링 된 집단 간의 거리 계산을 통해 얼마나 클러스터링이 잘되었는지를 확인하는 방식으로
KL divergence와 같은 공식으로 사용된다.

Mutual Information 은 집단의 수(클러스터링 수)가 증가할 수록 score_value가 커지기 때문에 Adjusted_Mutual_Inforamation(AMI) 이나 Normalized Mutual Information(NMI)를 활용하여 평가하는 것이 좋다.
score_value가 높아질수록 유사도가 떨어지는 것을 의미(KL-Divergence의 score가 낮을 수록 두 분포가 유사하다는 것과 동일 개념)하므로 클러스터의 개수를 늘릴 수록 score_value가 커지는 Mutual Information을 쓰는 것을 조심해야한다.

출처 : https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mutual_info_score.html
sklearn.metrics.mutual_info_score — scikit-learn 0.22.1 documentation
scikit-learn.org
출처 : https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mutual_info_score.html
scikit-learn: machine learning in Python — scikit-learn 0.16.1 documentation
scikit-learn.org
'Machine Learning' 카테고리의 다른 글
Image classification (Linear, DNN, CNN) (0) | 2020.03.04 |
---|---|
ROC, AUC (0) | 2020.02.17 |
tf 2.0 - Keras (0) | 2020.02.03 |
Tensorflow 2.0 (0) | 2020.02.03 |
Tensoflow train_and_evlauate 구성도 (0) | 2020.02.03 |