Я видел разные метрики ошибок, используемые в соревнованиях Kaggle: RMS, среднее значение, AUC и другие. Каково общее правило выбора метрики ошибки, т. Е. Как узнать, какую метрику ошибки использовать для данной проблемы? Есть ли рекомендации?
Я видел разные метрики ошибок, используемые в соревнованиях Kaggle: RMS, среднее значение, AUC и другие. Каково общее правило выбора метрики ошибки, т. Е. Как узнать, какую метрику ошибки использовать для данной проблемы? Есть ли рекомендации?
Пул метрик ошибок, которые вы можете выбрать, различается между классификацией и регрессией. В последнем случае вы пытаетесь предсказать одно непрерывное значение, а с помощью классификации вы предсказываете отдельные классы, такие как «здоровый» или «не здоровый». Из приведенных вами примеров среднеквадратическая ошибка будет применима для регрессии и AUC для классификации с двумя классами.
Позвольте мне рассказать вам немного подробнее о классификации. Вы упомянули AUC в качестве меры, которая является областью под кривой ROC, который обычно применяется только к задачам двоичной классификации с двумя классами. Хотя существуют способы построения кривой ROC для более чем двух классов, они теряют простоту кривой ROC для двух классов. Кроме того, кривые ROC могут быть построены только в том случае, если выбранный классификатор выдает какую-то оценку, связанную с каждым прогнозом. Например, логистическая регрессия даст вам вероятности для каждого из двух классов. В дополнение к своей простоте кривые ROC имеют то преимущество, что на них не влияет соотношение между положительно и отрицательно помеченными экземплярами в ваших наборах данных, и они не заставляют вас выбирать порог. Тем не менее, рекомендуется смотреть не только на кривую ROC, но и на другие визуализации. Я бы порекомендовал взглянуть на кривые точного возврата и кривые стоимости.одно истинное измерение ошибок, у всех них есть свои сильные и слабые стороны.
Литература, которую я нашел полезной в этом отношении:
Если ваш классификатор не дает какой-либо оценки, вы должны вернуться к основным показателям, которые можно получить из путаницы, содержащей количество истинных положительных результатов, ложных срабатываний, истинных отрицательных и ложных отрицательных. Упомянутые выше визуализации (ROC, точность-отзыв, кривая затрат) основаны на этих таблицах, полученных с использованием другого порога оценки классификатора. Наиболее популярная мера в этом случае, вероятно, F1-мера
Позвольте мне добавить еще несколько мыслей к уже существующим ответам.
Существует множество различных ROC, имеющих одинаковый AUC, и полезность может варьироваться в широких пределах для данного приложения.
в зависимости от вашего плана исследования, общая доля правильно или неправильно классифицированных образцов может быть подходящей сводкой или нет, и выводы, которые вы можете сделать из этого, также будут зависеть от плана исследования: отражают ли данные вашего теста априорные вероятности (распространенность) классы? Для населения, на котором должен использоваться ваш классификатор? Был ли он собран стратифицированным образом? Это тесно связано с тем фактом, что большинство пользователей классификатора больше интересуются прогностическими значениями, но чувствительность и специфичность гораздо легче измерить.
Вы спрашиваете об общих рекомендациях. Одно общее правило, что вам нужно знать
Они могут варьироваться в широких пределах: вы можете согласиться с некоторыми ложными отрицаниями при обнаружении спама, но это не будет приемлемой установкой для диагностики ВИЧ ...
Я думаю, что вы не сможете найти полезную метрику, если не сможете ответить на эти вопросы.
Это немного похоже на то, что в проверке классификатора нет бесплатного обеда.
источник
Ожидаемая ошибка ошибочной классификации - метод, который я использовал и видел чаще всего. AUC РПЦ является мерой набора правил классификации. Если идея состоит в том, чтобы сравнить определенный классификатор с другим, то AUC не подходит. Некоторая форма ошибки классификации имеет наибольший смысл, поскольку она наиболее непосредственно отражает эффективность правила классификации.
Большая работа была проделана в поиске хороших оценок частоты ошибок классификации из-за большого смещения оценки повторного замещения и высокой дисперсии одноразового использования. Начальная загрузка и гладкие оценки были учтены. См., Например, статью Эфрона в JASA 1983 об улучшениях начальной загрузки по сравнению с перекрестной проверкой.
Вот технический доклад Стэнфордского университета за 1995 год, подготовленный Эфроном и Тибширами, в котором обобщается литература, включая некоторые из моих собственных работ.
источник