데이터과학 삼학년

Precision (정밀도) / Recall (재현율) 어떤것을 메트릭으로 고를까?! 본문

Machine Learning

Precision (정밀도) / Recall (재현율) 어떤것을 메트릭으로 고를까?!

Dan-k 2024. 10. 23. 00:22
반응형

불균형한 데이터를 평가할 때 precision과 recall 중 어느 것을 우선시해야 하는지는 문제의 특성과 목표에 따라 다름

 

Precision (정밀도)

  • 정의: 모델이 양성으로 예측한 것 중 실제로 양성인 비율.
  • 공식: Precision = TP / (TP + FP)
  • 우선시해야 할 상황:
    • *False Positive (위양성)**를 줄이는 것이 중요한 경우.
    • 예를 들어, 스팸 필터링에서 스팸이 아닌 이메일을 스팸으로 분류하는 경우(정상 이메일이 스팸함으로 가는 경우)를 줄이고 싶을 때.
    • 이상탐지 -> 모델의 이상탐지로 인해 유저 제재가 이루어졌을 경우, 크리티컬한 비즈니스 문제가 생길 수 있음(cs)

Recall (재현율)

  • 정의: 실제 양성 중에서 모델이 양성으로 정확히 예측한 비율.
  • 공식: Recall = TP / (TP + FN)
  • 우선시해야 할 상황:
    • *False Negative (위음성)**를 줄이는 것이 중요한 경우.
    • 예를 들어, 질병 진단에서 실제로 질병이 있는 환자를 놓치는 경우를 줄이고 싶을 때.
    • 상품 구입 의향자, 광고 추천(클릭율) 등에 실제로 사용할 법한 잠재 고객을 파악하는데 용이하게 쓰일 수 있음

F1 Score

  • 정의: Precision과 Recall의 조화 평균.
  • 공식: F1 Score = 2 * (Precision * Recall) / (Precision + Recall)
  • 우선시해야 할 상황:
    • Precision과 Recall 사이의 균형을 맞추고 싶을 때.
    • 불균형한 데이터셋에서 모델의 전반적인 성능을 평가하고 싶을 때.
  • F-beta score로 비즈니스 목적에 따라 precision, recall의 중요도 가중치를 매겨 평가 가능

결론

  • Precision을 우선시해야 하는 경우: False Positive를 줄이는 것이 중요한 경우.
  • Recall을 우선시해야 하는 경우: False Negative를 줄이는 것이 중요한 경우.
  • F1 Score를 사용하는 경우: Precision과 Recall 사이의 균형을 맞추고 싶을 때.
728x90
반응형
LIST
Comments