Processing math: 100%
728x90

평가 지표의 한계

정확도의 한계성

모델 분류 정확도가 95% 이상이나 불필요 유저에게 노출되는 경우 원인

Accuracy=ncorrectntotal

Accuracy는 전체 샘플 개수 분의 정확하게 분류된 샘플 개수임
샘플 구성이 음성 99% 양성 1% 인 경우와 같이
클래스별로 샘플 비율이 불균형한 경우 정확도는 불균형 데이터의 영향을 많이 받게 됨

구매 유저가 전체 유저 대비 비중이 매우 작다면
모델이 전체 분류의 accuracy가 높더라도 구매 유저에 대한 분류 정확도가 높다고 할 수 없음
이 문제를 해결하기위해서는 평균 정확도(각 클래스 샘프르이 정확도의 산술평균)를 모델 평가 지표로 사용 하면 됨

정밀도와 재현율의 균형

연관 검색 랭킹 모델이 출력하는 TOP 5 콘텐츠에서 유저가 찾고 싶어 하는 영상이 없는 원인

(정밀도-precision, 재현율-recall 관점에서)

precision: 양성으로 분류한 것 중 실제 양성인 것의 비율
recall: 실제 양성 샘플인 것 중에서 정확히 분류해 낸 양성 샘플의 비율

사용자가 찾고 싶은 컨텐츠를 찾지 못하는 현상이 잦은 경우, recall 값이 낮은 것을 의미함

  • Precision@5가 100%일 때, Recall@5는 5%가 됨

종합적으로 랭킹 모델을 평가하기 위해서는 서로 다른 Top N 하에서의 P-R(Precision-Recall) 곡선을 그려 해결 가능

  • PR곡선의 x축은 recall, y축은 precision

그 외에 F1 score(precision, recall의 조화평균 2×precision×recallprecision+recall) 및 ROC 곡선으로도 성능 평가 가능

평균제곱근오차의 예외

95%의 시간대 내에서 모델의 예측오차 1%인 모델에서 오차 대비 너무 높은 RMSE 지표가 나타나는 원인

RMSE=ni=1(yiˆyi)2n

  • RMSE는 일반적인 상황에서 예측값이 실제 값에서 벗어난 정도를 잘 반영
  • 하지만 RMSE는 오차를 제곱하여 사용하기 때문에 outlier의 영향을 크게 받음
  • Outlier는 일반 데이터보다 훨씬 큰 오차를 가지고 있으며, 이 오차가 제곱되면 더욱 커져 RMSE 값을 크게 증가시킴

95% 시간대 내에서 예측오차가 1%인데 RMSE 지표가 높다면
나머지 5% 시간대 내에 outlier가 존재할 가능성이 있다는 것을 의미함

노이즈 포인트에 의한 이벤트(상받은 드라마 등)로 인해 outlier 그룹 형성했을 확률이 높음

<해결 방법>

  1. 단순 노이즈인 경우 ▶ 데이터 전처리 과정에서 필터링
  2. 단순 노이즈가 아니라면 ▶ outlier의 매커니즘을 모델에 포함시켜야함
  3. 다른 robust(견고한) 평가 지표 사용 ex) MAPE

Mean Absollute Percent Error (MAPE)

MAPE=ni=1|yiˆyiyi×100n|

평균 절대비 오차는 회귀 모델의 예측 오차를 평가하는 지표로, 실제값과 예측값 사이의 절대 백분율의 차이를 평균으로 계산

  • RMSE는 오차를 제곱하지만 MAPE는 백분율차이를 이용해서 값이 작음
  • RMSE는 절대 오차를 평가하지만, MAPE는 상대 오차를 평가하기 때문에 함께 사용하면 더 정확한 해석이 가능함
  • 단점: 실제 값이 0인경우 무한대로 발산, 데이터 단위가 다른 경우 직접 비교 어려움, 따라서 보통 단독 지표로 사용하지 않음
반응형