[ML] 분류 성능 평가 지표

Machine Learning

[ML] 분류 성능 평가 지표

주댕이 2024. 2. 20. 09:59

# 분류 성능 평가 지표

모델이 예측한 결과와 실제 결과를 비교하여 다른 측면에서 모델의 성능을 측정한다.
모델의 성능을 평가하고 각 클래스에 대한 예측의 품질을 이해하는 데 도움이 된다.
주요 분류 성능 평가 지표에는 정확도(Accuracy), 정밀도(Precision), 재현율(Recall), F1 점수(F1 Score), ROC 곡선(Receiver Operating Characteristic curve), AUC(Area Under the Curve) 등이 있다.

# 정확도(Accuracy)

전체 예측 중 올바르게 분류된 비율
정확도 = (올바르게 분류된 샘플 수) / (전체 샘플 수)
예) 100개의 샘플 중 80개를 올바르게 분류했다면 정확도는 80%
클래스 불균형 문제에서 적합한 지표가 아닐 수 있다.

# 정밀도(Precision)

모델이 Positive로 예측한 샘플 중에서 실제로 Positive인 샘플의 비율
정밀도 = (True Positive) / (True Positive + False Positive)
모델이 "Yes"로 예측한 것 중에서 실제로 "Yes"인 비율
거짓 양성(FP)을 줄이는 데 중점을 둔 지표로 사용된다.

# 재현율(Recall)

실제 Positive인 샘플 중에서 모델이 Positive로 올바르게 예측한 샘플의 비율
재현율 = (True Positive) / (True Positive + False Negative)
실제 "Yes"인 것 중에서 모델이 "Yes"로 제대로 예측한 비율
거짓 음성(FN)을 줄이는 데 중점을 둔 지표로 사용된다.

# F1 스코어(F1 Score)

정밀도와 재현율의 조화 평균
불균형한 클래스 분포에서 모델의 성능을 종합적으로 평가하는 데 사용된다.
F1 Score = 2 * (정밀도 * 재현율) / (정밀도 + 재현율)

# ROC 곡선과 AUC(Receiver Operating Characteristic curve and Area Under the Curve)

이진 분류 모델의 성능을 시각적으로 평가하는 데 사용된다.
ROC 곡선은 여러 임계값에서 모델의 재현율과 거짓 양성 비율(FPR) 사이의 관계를 보여준다.
AUC는 ROC 곡선 아래의 면적으로, 모델의 전반적인 성능을 요약하는 단일 지표이다.
AUC 값이 1에 가까울수록 성능이 우수하며, 0.5에 가까울수록 성능이 랜덤 수준에 가깝다.

728x90

'Machine Learning' 카테고리의 다른 글

[sklearn] Model Selection (2)	2024.03.05
[sklearn] Estimator (0)	2024.03.05
[sklearn] 붓꽃 품종 예측하기 (0)	2024.02.19
[sklearn] 사이킷런(scikit-learn) (0)	2024.02.19
[ML] PyCaret 설치하기 (0)	2024.02.14

현재글[ML] 분류 성능 평가 지표

티스토리툴바