데이터과학 삼학년

추천 메트릭 :: Precision@k, Recall@k, MAP, MRR, NDCG , AP, F1-Score, Coverage, Diversity, Novelty 본문

Recommendation System

추천 메트릭 :: Precision@k, Recall@k, MAP, MRR, NDCG , AP, F1-Score, Coverage, Diversity, Novelty

Dan-k 2024. 8. 28. 12:00
반응형

검색 및 추천 시스템의 성과를 평가하는 다양한 메트릭

검색 엔진 및 추천 시스템의 성과를 평가하는 데에는 여러 메트릭이 사용

 

1. NDCG (Normalized Discounted Cumulative Gain)

NDCG는 검색 결과의 랭킹 품질을 평가하는 메트릭으로, 관련성 점수와 위치에 따라 할인된 점수를 사용합니다.

DCG 계산:
\[
DCG_p = \sum_{i=1}^{p} \frac{rel_i}{\log_2(i+1)}
\]

IDCG 계산:
\[
IDCG_p = \sum_{i=1}^{p} \frac{rel_{(i)}}{\log_2(i+1)}
\]

NDCG 계산:
\[
NDCG_p = \frac{DCG_p}{IDCG_p}
\]

여기서 ( rel_i )는 위치 ( i )에서의 관련성 점수, ( rel_{(i)} )는 이상적인 순서에서의 관련성 점수입니다.

2. Precision@k

Precision@k는 상위 k개의 추천 항목 중에서 얼마나 많은 항목이 관련성이 있는지를 측정합니다.

정의:
\[
\text{Precision@k} = \frac{\text{Number of relevant items in top } k}{k}
\]

3. Recall@k

Recall@k는 상위 k개의 항목에서 전체 관련 항목 중 얼마나 많은 항목이 포함되었는지를 평가합니다.

정의:
\[
\text{Recall@k} = \frac{\text{Number of relevant items in top } k}{\text{Total number of relevant items}}
\]

4. Mean Average Precision (MAP)

MAP는 여러 쿼리에 대한 Average Precision (AP)의 평균을 계산하여 시스템의 전반적인 성과를 평가합니다.

Average Precision (AP):
\[
\text{AP} = \frac{1}{\text{Number of relevant documents}} \sum_{k=1}^n (\text{Precision@k} \times \text{relevant at k})
\]

MAP:
\[
\text{MAP} = \frac{1}{Q} \sum_{q=1}^Q \text{AP}_q
\]

여기서 ( Q )는 쿼리의 수, ( \text{AP}_q )는 쿼리 ( q )에 대한 Average Precision입니다.

5. Mean Reciprocal Rank (MRR)

MRR은 검색 결과에서 첫 번째로 관련성이 있는 항목의 위치를 기준으로 성과를 평가합니다.

정의:
\[
\text{MRR} = \frac{1}{Q} \sum_{q=1}^Q \frac{1}{\text{Rank of first relevant item}}
\]

6. Average Precision (AP)

Average Precision (AP)는 각 위치에서의 Precision을 평균하여 계산합니다.

정의:
\[
\text{AP} = \frac{1}{\text{Number of relevant items}} \sum_{k=1}^n (\text{Precision@k} \times \text{relevant at k})
\]

7. F1-Score

F1-Score는 Precision과 Recall의 조화 평균으로, 두 메트릭의 균형을 평가합니다.

정의:
\[
\text{F1} = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}
\]

8. Coverage

Coverage는 추천 시스템에서 사용자에게 추천된 항목이 전체 가능한 항목 중 얼마나 많은 비율을 차지하는지를 측정합니다.

정의:
\[
\text{Coverage} = \frac{\text{Number of unique items recommended}}{\text{Total number of items}}
\]

9. Diversity

Diversity는 추천된 항목 간의 다양성을 측정합니다.

정의: 추천 목록에서 항목 간의 유사성의 역수. 이는 항목 간의 거리를 기반으로 계산됩니다.

10. Novelty

Novelty는 추천 시스템이 얼마나 새로운, 즉 사용자에게 잘 알려지지 않은 아이템을 추천하는지를 측정합니다.

정의: 추천된 아이템의 평균 인기도 또는 평균 재추천률. 이는 추천된 아이템의 인기도 분포를 기반으로 계산됩니다.


이 글은 각 메트릭의 정의와 계산 방법을 명확히 하여, 추천 시스템이나 검색 엔진의 성과를 평가하고 개선하는 데 유용한 정보를 제공합니다.

728x90
반응형
LIST
Comments