У меня есть проблема двоичной классификации, и я экспериментирую с различными классификаторами: я хочу сравнить классификаторы. какой из них лучше измерить AUC или точность? И почему?
Raondom Forest: AUC: 0.828 Accuracy: 79.6667 %
SVM: AUC: 0.542 Accuracy: 85.6667 %
Я думаю, что вы определенно должны смотреть на большее количество показателей, чем просто AUC и точность.
Точность (вместе с чувствительностью и специфичностью) является очень простой, но смещенной метрикой, которая вынуждает вас смотреть на абсолютный результат предсказания и не открывает для утверждения вероятности класса или ранжирования. Он также не учитывает совокупность, которая допускает неправильное толкование как модель, дающая 95% -ную точность для совокупности с 95% -ной вероятностью быть случайной в правильном случае, не очень хорошая модель, даже если точность высокая.
AUC - хороший показатель для подтверждения точности модели, которая не зависит от вероятностей класса населения. Однако он ничего не скажет вам о том, насколько хороши оценки вероятности. Вы могли бы получить высокий AUC, но все еще иметь очень искаженные оценки вероятности. Эта метрика более разборчива, чем точность и определенно даст вам лучшие модели при использовании в сочетании с некоторым правильным правилом подсчета очков, например, оценкой Бриера, как упомянуто в другом посте.
Вы можете получить более формальное доказательство здесь, хотя этот документ довольно теоретический: AUC: статистически непротиворечивая и более дискриминационная мера, чем точность
Однако есть множество хороших метрик. Функции потерь для оценки и классификации вероятности двоичного класса: структура и приложения - это хорошая статья, в которой изучаются правильные правила оценки, такие как оценка Бриера.
Еще одна интересная статья с метриками для оценки эффективности модели - это Оценка: от точности, отзыва и F-меры до ROC, информированности, маркировки и корреляции , в которой рассматриваются другие хорошие метрики производительности, такие как информированность.
Подводя итог, я бы порекомендовал взглянуть на оценку AUC / Gini и Brier, чтобы утверждать производительность модели, но в зависимости от цели вашей модели другие метрики могут лучше удовлетворить вашу проблему.
источник