평가 지표의 한계
정확도의 한계성
모델 분류 정확도가 95% 이상이나 불필요 유저에게 노출되는 경우 원인
Accuracy=ncorrectntotal
Accuracy는 전체 샘플 개수 분의 정확하게 분류된 샘플 개수임
샘플 구성이 음성 99% 양성 1% 인 경우와 같이
클래스별로 샘플 비율이 불균형한 경우 정확도는 불균형 데이터의 영향을 많이 받게 됨
구매 유저가 전체 유저 대비 비중이 매우 작다면
모델이 전체 분류의 accuracy가 높더라도 구매 유저에 대한 분류 정확도가 높다고 할 수 없음
이 문제를 해결하기위해서는 평균 정확도(각 클래스 샘프르이 정확도의 산술평균)를 모델 평가 지표로 사용 하면 됨
정밀도와 재현율의 균형
연관 검색 랭킹 모델이 출력하는 TOP 5 콘텐츠에서 유저가 찾고 싶어 하는 영상이 없는 원인
(정밀도-precision, 재현율-recall 관점에서)
precision: 양성으로 분류한 것 중 실제 양성인 것의 비율
recall: 실제 양성 샘플인 것 중에서 정확히 분류해 낸 양성 샘플의 비율
사용자가 찾고 싶은 컨텐츠를 찾지 못하는 현상이 잦은 경우, recall 값이 낮은 것을 의미함
- Precision@5가 100%일 때, Recall@5는 5%가 됨
종합적으로 랭킹 모델을 평가하기 위해서는 서로 다른 Top N 하에서의 P-R(Precision-Recall) 곡선을 그려 해결 가능
- PR곡선의 x축은 recall, y축은 precision
그 외에 F1 score(precision, recall의 조화평균 2×precision×recallprecision+recall) 및 ROC 곡선으로도 성능 평가 가능
평균제곱근오차의 예외
95%의 시간대 내에서 모델의 예측오차 1%인 모델에서 오차 대비 너무 높은 RMSE 지표가 나타나는 원인
RMSE=√n∑i=1(yi−ˆyi)2n
- RMSE는 일반적인 상황에서 예측값이 실제 값에서 벗어난 정도를 잘 반영
- 하지만 RMSE는 오차를 제곱하여 사용하기 때문에 outlier의 영향을 크게 받음
- Outlier는 일반 데이터보다 훨씬 큰 오차를 가지고 있으며, 이 오차가 제곱되면 더욱 커져 RMSE 값을 크게 증가시킴
95% 시간대 내에서 예측오차가 1%인데 RMSE 지표가 높다면
나머지 5% 시간대 내에 outlier가 존재할 가능성이 있다는 것을 의미함
노이즈 포인트에 의한 이벤트(상받은 드라마 등)로 인해 outlier 그룹 형성했을 확률이 높음
<해결 방법>
- 단순 노이즈인 경우 ▶ 데이터 전처리 과정에서 필터링
- 단순 노이즈가 아니라면 ▶ outlier의 매커니즘을 모델에 포함시켜야함
- 다른 robust(견고한) 평가 지표 사용 ex) MAPE
Mean Absollute Percent Error (MAPE)
MAPE=n∑i=1|yi−ˆyiyi×100n|
평균 절대비 오차는 회귀 모델의 예측 오차를 평가하는 지표로, 실제값과 예측값 사이의 절대 백분율의 차이를 평균으로 계산
- RMSE는 오차를 제곱하지만 MAPE는 백분율차이를 이용해서 값이 작음
- RMSE는 절대 오차를 평가하지만, MAPE는 상대 오차를 평가하기 때문에 함께 사용하면 더 정확한 해석이 가능함
- 단점: 실제 값이 0인경우 무한대로 발산, 데이터 단위가 다른 경우 직접 비교 어려움, 따라서 보통 단독 지표로 사용하지 않음
'AI > Books' 카테고리의 다른 글
The Quest for Machine Learning - Chap3 Classic machine learning algorithms (1) | 2024.04.16 |
---|---|
The Quest for Machine Learning - Chap1 피처 엔지니어링 2 (텍스트 표현 모델) (0) | 2024.03.04 |
The Quest for Machine Learning - Chap1 피처 엔지니어링 1 (피처 정규화) (0) | 2024.02.01 |
선형대수와 통계학으로 배우는 머신러닝 - Chap12-2 딥러닝 (AutoEncoder - 자연어처리) (1) | 2023.12.25 |
선형대수와 통계학으로 배우는 머신러닝 - Chap12-1 딥러닝 (퍼셉트론 - GRU) (0) | 2023.12.25 |