Как выбрать метрику ошибки при оценке классификатора?

15

Я видел разные метрики ошибок, используемые в соревнованиях Kaggle: RMS, среднее значение, AUC и другие. Каково общее правило выбора метрики ошибки, т. Е. Как узнать, какую метрику ошибки использовать для данной проблемы? Есть ли рекомендации?

Вишал
источник

Ответы:

12

Пул метрик ошибок, которые вы можете выбрать, различается между классификацией и регрессией. В последнем случае вы пытаетесь предсказать одно непрерывное значение, а с помощью классификации вы предсказываете отдельные классы, такие как «здоровый» или «не здоровый». Из приведенных вами примеров среднеквадратическая ошибка будет применима для регрессии и AUC для классификации с двумя классами.

Позвольте мне рассказать вам немного подробнее о классификации. Вы упомянули AUC в качестве меры, которая является областью под кривой ROC, который обычно применяется только к задачам двоичной классификации с двумя классами. Хотя существуют способы построения кривой ROC для более чем двух классов, они теряют простоту кривой ROC для двух классов. Кроме того, кривые ROC могут быть построены только в том случае, если выбранный классификатор выдает какую-то оценку, связанную с каждым прогнозом. Например, логистическая регрессия даст вам вероятности для каждого из двух классов. В дополнение к своей простоте кривые ROC имеют то преимущество, что на них не влияет соотношение между положительно и отрицательно помеченными экземплярами в ваших наборах данных, и они не заставляют вас выбирать порог. Тем не менее, рекомендуется смотреть не только на кривую ROC, но и на другие визуализации. Я бы порекомендовал взглянуть на кривые точного возврата и кривые стоимости.одно истинное измерение ошибок, у всех них есть свои сильные и слабые стороны.

Литература, которую я нашел полезной в этом отношении:

Если ваш классификатор не дает какой-либо оценки, вы должны вернуться к основным показателям, которые можно получить из путаницы, содержащей количество истинных положительных результатов, ложных срабатываний, истинных отрицательных и ложных отрицательных. Упомянутые выше визуализации (ROC, точность-отзыв, кривая затрат) основаны на этих таблицах, полученных с использованием другого порога оценки классификатора. Наиболее популярная мера в этом случае, вероятно, F1-мераNN×NN 2×2AA

sebp
источник
1
NN×NN 2×2
Большое спасибо за указание на эту ошибку, я исправил ее в ответе выше.
sebp
5

Позвольте мне добавить еще несколько мыслей к уже существующим ответам.

  • большинство классификаторов фактически имеют промежуточный непрерывный балл, к которому обычно применяется порог для назначения жестких классов (ниже t: класс a, выше: класс b). Варьирование этого порога приводит к РПЦ.
  • В общем случае не стоит сжимать такую ​​кривую в одно число. см., например, «Дело против оценки точности для сравнения алгоритмов индукции»
    Существует множество различных ROC, имеющих одинаковый AUC, и полезность может варьироваться в широких пределах для данного приложения.
  • наоборот: выбор порога может быть в значительной степени определен приложением, которое у вас есть.
  • Вам не нужно смотреть на производительность классификатора за пределами этих границ, и если вы выбираете одну метрику, это должно по крайней мере суммировать только соответствующий диапазон ограниченных других метрик.
  • в зависимости от вашего плана исследования, общая доля правильно или неправильно классифицированных образцов может быть подходящей сводкой или нет, и выводы, которые вы можете сделать из этого, также будут зависеть от плана исследования: отражают ли данные вашего теста априорные вероятности (распространенность) классы? Для населения, на котором должен использоваться ваш классификатор? Был ли он собран стратифицированным образом? Это тесно связано с тем фактом, что большинство пользователей классификатора больше интересуются прогностическими значениями, но чувствительность и специфичность гораздо легче измерить.

  • Вы спрашиваете об общих рекомендациях. Одно общее правило, что вам нужно знать

    • какой тип производительности вам нужен (чувствительность, специфичность, прогнозные значения и т. д., ответьте на конкретные вопросы о поведении вашего классификатора, посмотрите, что я написал здесь ).
    • Какие допустимые рабочие диапазоны для этих характеристик производительности для вашего приложения?
      Они могут варьироваться в широких пределах: вы можете согласиться с некоторыми ложными отрицаниями при обнаружении спама, но это не будет приемлемой установкой для диагностики ВИЧ ...

Я думаю, что вы не сможете найти полезную метрику, если не сможете ответить на эти вопросы.

Это немного похоже на то, что в проверке классификатора нет бесплатного обеда.

cbeleites поддерживает Монику
источник
2

Ожидаемая ошибка ошибочной классификации - метод, который я использовал и видел чаще всего. AUC РПЦ является мерой набора правил классификации. Если идея состоит в том, чтобы сравнить определенный классификатор с другим, то AUC не подходит. Некоторая форма ошибки классификации имеет наибольший смысл, поскольку она наиболее непосредственно отражает эффективность правила классификации.

Большая работа была проделана в поиске хороших оценок частоты ошибок классификации из-за большого смещения оценки повторного замещения и высокой дисперсии одноразового использования. Начальная загрузка и гладкие оценки были учтены. См., Например, статью Эфрона в JASA 1983 об улучшениях начальной загрузки по сравнению с перекрестной проверкой.

Вот технический доклад Стэнфордского университета за 1995 год, подготовленный Эфроном и Тибширами, в котором обобщается литература, включая некоторые из моих собственных работ.

Майкл Р. Черник
источник
Сравнение производительности двух классификаторов в одном наборе данных - это еще одна тема для обсуждения. В частности, в случае ROC и AUC существует несколько методов для сравнения кривых ROC в целом или оценок AUC. Это по сути статистические тесты с нулевой гипотезой, что ROC / AUC не отличается. Перекрестная проверка и начальная загрузка - еще одна интересная тема, недавно я увидел статью ( dx.doi.org/10.1016/j.csda.2010.03.004 ) об этом. Я думаю, если вы рассмотрите все аспекты одновременно, это может стать довольно пугающим.
sebp