데이터과학 삼학년

Mutual Information_ 클러스터링 평가 척도 본문

Machine Learning

Mutual Information_ 클러스터링 평가 척도

Dan-k 2020. 2. 14. 11:58
반응형

클러스터링이 얼마나 잘 되었는지 평가하는 척도 중 하나인 Mutual Information에 대해 알아보자.

 

 

클러스터링 된 집단 간의 거리 계산을 통해 얼마나 클러스터링이 잘되었는지를 확인하는 방식으로

KL divergence와 같은 공식으로 사용된다.

 

 

Mutual Information 은 집단의 수(클러스터링 수)가 증가할 수록 score_value가 커지기 때문에 Adjusted_Mutual_Inforamation(AMI) 이나 Normalized Mutual Information(NMI)를 활용하여 평가하는 것이 좋다.

 

score_value가 높아질수록 유사도가 떨어지는 것을 의미(KL-Divergence의 score가 낮을 수록 두 분포가 유사하다는 것과 동일 개념)하므로 클러스터의 개수를 늘릴 수록 score_value가 커지는 Mutual Information을 쓰는 것을 조심해야한다. 

 

 

 

 

 

출처 : https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mutual_info_score.html

 

sklearn.metrics.mutual_info_score — scikit-learn 0.22.1 documentation

 

scikit-learn.org

출처 :  https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mutual_info_score.html

 

scikit-learn: machine learning in Python — scikit-learn 0.16.1 documentation

 

scikit-learn.org

728x90
반응형
LIST

'Machine Learning' 카테고리의 다른 글

Image classification (Linear, DNN, CNN)  (0) 2020.03.04
ROC, AUC  (0) 2020.02.17
tf 2.0 - Keras  (0) 2020.02.03
Tensorflow 2.0  (0) 2020.02.03
Tensoflow train_and_evlauate 구성도  (0) 2020.02.03
Comments