Machine Learning

[ML] 분류 성능 평가 지표

주댕이 2024. 2. 20. 09:59

# 분류 성능 평가 지표

  • 모델이 예측한 결과와 실제 결과를 비교하여 다른 측면에서 모델의 성능을 측정한다.
  • 모델의 성능을 평가하고 각 클래스에 대한 예측의 품질을 이해하는 데 도움이 된다.
  • 주요 분류 성능 평가 지표에는 정확도(Accuracy), 정밀도(Precision), 재현율(Recall), F1 점수(F1 Score), ROC 곡선(Receiver Operating Characteristic curve), AUC(Area Under the Curve) 등이 있다.

 

# 정확도(Accuracy)

  • 전체 예측 중 올바르게 분류된 비율
  • 정확도 = (올바르게 분류된 샘플 수) / (전체 샘플 수)
  • 예) 100개의 샘플 중 80개를 올바르게 분류했다면 정확도는 80%
  • 클래스 불균형 문제에서 적합한 지표가 아닐 수 있다.

 

# 정밀도(Precision)

  • 모델이 Positive로 예측한 샘플 중에서 실제로 Positive인 샘플의 비율
  • 정밀도 = (True Positive) / (True Positive + False Positive)
  • 모델이 "Yes"로 예측한 것 중에서 실제로 "Yes"인 비율
  • 거짓 양성(FP)을 줄이는 데 중점을 둔 지표로 사용된다.

 

# 재현율(Recall)

  • 실제 Positive인 샘플 중에서 모델이 Positive로 올바르게 예측한 샘플의 비율
  • 재현율 = (True Positive) / (True Positive + False Negative)
  • 실제 "Yes"인 것 중에서 모델이 "Yes"로 제대로 예측한 비율
  • 거짓 음성(FN)을 줄이는 데 중점을 둔 지표로 사용된다.

 

# F1 스코어(F1 Score)

  • 정밀도와 재현율의 조화 평균
  • 불균형한 클래스 분포에서 모델의 성능을 종합적으로 평가하는 데 사용된다.
  • F1 Score = 2 * (정밀도 * 재현율) / (정밀도 + 재현율)

 

# ROC 곡선과 AUC(Receiver Operating Characteristic curve and Area Under the Curve)

  • 이진 분류 모델의 성능을 시각적으로 평가하는 데 사용된다.
  • ROC 곡선은 여러 임계값에서 모델의 재현율과 거짓 양성 비율(FPR) 사이의 관계를 보여준다.
  • AUC는 ROC 곡선 아래의 면적으로, 모델의 전반적인 성능을 요약하는 단일 지표이다.
  • AUC 값이 1에 가까울수록 성능이 우수하며, 0.5에 가까울수록 성능이 랜덤 수준에 가깝다.
728x90

'Machine Learning' 카테고리의 다른 글

[sklearn] Model Selection  (2) 2024.03.05
[sklearn] Estimator  (0) 2024.03.05
[sklearn] 붓꽃 품종 예측하기  (0) 2024.02.19
[sklearn] 사이킷런(scikit-learn)  (0) 2024.02.19
[ML] PyCaret 설치하기  (0) 2024.02.14