일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- gather_nd
- GenericGBQException
- GCP
- 유튜브 API
- integrated gradient
- API
- session 유지
- hadoop
- Counterfactual Explanations
- correlation
- API Gateway
- login crawling
- grad-cam
- 상관관계
- TensorFlow
- flask
- requests
- Airflow
- tensorflow text
- top_k
- XAI
- Retry
- chatGPT
- youtube data
- airflow subdag
- BigQuery
- subdag
- UDF
- spark udf
- 공분산
- Today
- Total
데이터과학 삼학년
Mahalanobis Distance 본문
Mahalanobis Distance
- 마할노비스 거리는 다변량 공간에서 2 points 사이의 거리를 의미한다.
- 더 정확히 말하자면 두 변수간의 상관관계까지 고려한 distance를 의미함
> 여기서, u는 각 데이터(raw), v는 각 데이터의 평균을 의미한다
> 예를 들어, 다변량 키, 몸무게가 있다면
u = (키1,몸무게1)
v = (키 평균, 몸무게 평균)
식에서 알 수 있듯이 공분산 매트릭스를 이용하여 거리를 재는 개념이므로,
다변량 (예, 키,몸무게) 간에 독립이라면 마할노비스 거리는 유클리디안 거리와 동일하다.
- MCD 기반 Mahalanobis 거리는 내부 검은 색 점에 훨씬 더 잘 맞는 반면 MLE 기반 거리는 특이 치 빨간색 점의 영향을 더 많이 받는 것을 아래 그림에서 확인할 수 있음
적용
- 대부분 다변량 데이터에서 이상치를 탐색하기 위해 주로 사용 --> (Fast-MCD 를 이용)
단점
- 데이터에 outlier 가 있을때, 공분산 매트릭스가 오염되게 되어 마할노비스 거리는 잘못 추정될 수 있다.
> 이를 보완하기 위해 나온 것이 MCD (Minimum Covariance Determinant estimator)
MCD (Minimum Covariance Determinant estimator)
- 데이터에서 h개의 샘플 데이터를 뽑아서 공분산이 가장 작은 데이터를 선정해 평균, 표준편차를 구해 마할노비스 거리를 산정하는 방법
- MCD를 이용하면 아래 그림 처럼 이상치 분포를 확실히 더 잘 구분한 것을 알 수 있음
'Statistical Learning' 카테고리의 다른 글
샘플링 (Sampling) (0) | 2021.04.05 |
---|---|
Edit Distance (Levenshtein Distance) (퍼옴) (1) | 2021.04.01 |
생존 분석 (Survival Analysis) - 퍼옴 (0) | 2021.04.01 |
Maximum Likelihood Estimation (Simple Error Bound) (1) | 2021.03.17 |
회귀분석의 가정과 한계 극복 방법 (nc 단비 블로그 퍼옴) (0) | 2021.03.09 |