Перекрестная проверка или начальная загрузка для оценки эффективности классификации?

24

Какой метод выборки является наиболее подходящим для оценки производительности классификатора на конкретном наборе данных и сравнения его с другими классификаторами? Перекрестная проверка кажется стандартной практикой, но я читал, что такие методы, как .632 начальной загрузки, являются лучшим выбором.

В качестве продолжения: влияет ли выбор метрики производительности на ответ (если я использую AUC вместо точности)?

Моя конечная цель - с уверенностью сказать, что один метод машинного обучения превосходит другой для определенного набора данных.

kelvin_11
источник
1
Bootstrap (с заменой) может использоваться в вашем наборе тренировочных данных вместо, например, (повторной) k-кратной перекрестной проверки. См. Также: Различия между перекрестной проверкой и начальной загрузкой для оценки ошибки предсказания , Понимание начальной проверки для проверки и выбора модели .
ЧЛ

Ответы:

42

Одним из важных отличий в обычном способе перекрестной проверки и методов вне начальной загрузки является то, что большинство людей применяют перекрестную проверку только один раз (т. Е. Каждый случай проверяется ровно один раз), тогда как проверка вне начальной загрузки выполняется с большим количеством повторений / итераций. В этой ситуации перекрестная проверка подвержена большей дисперсии из-за нестабильности модели. Однако этого можно избежать, используя, например, повторную / повторную перекрестную проверку в К кратном размере. Если это будет сделано, по крайней мере для спектроскопических наборов данных, с которыми я работал, общая ошибка обеих схем повторной выборки на практике будет одинаковой.

Не рекомендуется проводить перекрестную проверку по принципу «один-один-один-один», поскольку нет возможности уменьшить дисперсию типа нестабильности модели, и есть некоторые классификаторы и проблемы, в которых она проявляет огромный пессимистический уклон.

.632 bootstrap делает разумную работу, если ошибка повторной выборки не слишком оптимистична. (Например, для данных, с которыми я работаю, очень широкие матрицы с большим количеством вариаций, это не очень хорошо работает, поскольку модели подвержены серьезному переоснащению). Это также означает, что я бы не использовал загрузчик .632 для сравнения моделей различной сложности. С загрузкой .632+ у меня нет опыта: если перегрузка произойдет и будет правильно обнаружена, она будет равна исходной оценке вне начальной загрузки, поэтому я придерживаюсь простой работы или повторяемой / повторной перекрестной проверки для моих данных.

Литература:

  • Кохави, Р .: Исследование перекрестной валидации и начальной загрузки для оценки точности и выбора модели. Материалы по искусственному интеллекту 14-я Международная объединенная конференция, 20-25. Август 1995, Монреаль, Квебек, Канада, 1995, 1137 - 1145.
    (классический )

У Догерти и Брага-Нето есть ряд публикаций по этой теме , например

Выбор метрики:

Моя конечная цель - с уверенностью сказать, что один метод машинного обучения превосходит другой для определенного набора данных.

  • Используйте парный тест, чтобы оценить это. Для сравнения пропорций взгляните на тест Макнемара.

  • Ответ на это будет зависеть от выбора метрики. Так как меры ошибки регрессионного типа не имеют этапа «закалки», связанного с сокращением решений с пороговым значением, они часто имеют меньшую дисперсию, чем их классификационные аналоги. Метрики, такие как точность, которые в основном являются пропорциями, потребуют огромного количества тестовых случаев, чтобы установить превосходство одного классификатора над другим.

Fleiss: «Статистические методы для норм и пропорций» приводит примеры (и таблицы) для непарного сравнения пропорций. Чтобы дать вам представление о том, что я имею в виду под «огромными размерами выборки», взгляните на изображение в моем ответе на этот другой вопрос . Для парных тестов, подобных МакНемару, требуется меньше тестовых случаев, но в лучшем случае IIRC все еще составляет половину (?) Размера выборки, необходимого для непарного теста.

  • Чтобы охарактеризовать производительность классификатора (усиленная), вам обычно нужна рабочая кривая не менее двух значений, таких как ROC (чувствительность или специфичность) или тому подобное.
    Я редко использую общую точность или AUC, так как мои приложения обычно имеют ограничения, например, что чувствительность важнее, чем специфичность, или должны быть соблюдены определенные границы этих мер. Если вы выбираете характеристики суммы «одно число», убедитесь, что рабочая точка моделей, на которые вы смотрите, действительно находится в разумном диапазоне.

  • Для обеспечения точности и других показателей производительности, которые суммируют производительность для нескольких классов в соответствии с ссылочными метками, убедитесь, что вы учитываете относительную частоту классов, с которыми вы столкнетесь в приложении - что не обязательно совпадает с тем, что в вашем приложении. данные тренировок или испытаний.

  • Провост Ф. и соавт. : Аргумент против оценки точности для сравнения алгоритмов индукции в материалах пятнадцатой международной конференции по машинному обучению, 1998 г.


редактировать: сравнение нескольких классификаторов

Я долго думал об этой проблеме, но пока не нашел решения (и не встречал никого, кто имел решение).

Вот что у меня так далеко:

На данный момент я решил, что «оптимизация - корень всего зла», и вместо этого выбрал совершенно другой подход:
я решаю, насколько это возможно, исходя из экспертных знаний о рассматриваемой проблеме. Это на самом деле позволяет сузить круг вещей, так что я часто могу избежать сравнения моделей. Когда мне приходится сравнивать модели, я стараюсь быть очень открытым и ясным, напоминая людям о неопределенности оценки эффективности и о том, что сравнение множества моделей является AFAIK все еще нерешенной проблемой.


Редактировать 2: парные тесты

Среди моделей вы можете сделать сравнений между двумя разными моделями (что представляет собой сложную ситуацию множественного сравнения), я не знаю, как правильно это сделать. Тем не менее, в паре1N12(N2-N)теста означает только тот факт, что, поскольку все модели тестируются с одинаковыми тестовыми примерами, вы можете разделить эти случаи на «простые» и «сложные» случаи, с одной стороны, для которых все модели получают правильные значения (или неверный прогноз Они не помогают различать модели. С другой стороны, есть «интересные» случаи, которые некоторые предсказывают правильно, но не другие модели. Только эти «интересные» случаи должны рассматриваться для оценки превосходства, ни «простые», ни «сложные» случаи не помогают в этом. (Вот как я понимаю идею теста Макнемара).

Я полагаю, что при множественном множественном сравнении моделей одна проблема заключается в том, что, если вам не повезет, чем больше моделей вы сравните, тем меньше случаев вы сможете исключить из дальнейших рассуждений: даже если все модели действительно равны по своим В целом, становится все менее вероятным, что случай в конечном итоге будет всегда правильно (или всегда неправильно) предсказываться моделями.нNN

cbeleites поддерживает Монику
источник
Спасибо за подробный ответ! Я был бы очень признателен, если бы вы могли уточнить то, что вы высказали: « Используйте парный тест для оценки этого. Для сравнения пропорций взгляните на тест Макнемара». Я должен немного перефразировать свой вопрос: я хотел бы сравнить несколько машин методы обучения сразу, не обязательно просто парами. Мне не сразу понятно, как парные тесты могут этого добиться.
kelvin_11
3
(+6) Хороший ответ.
Chl
@cbeleites Я люблю тебя за этот комментарий. Для значимости сравнения нескольких моделей - как насчет анализа дисперсии (ANOVA)? такие как Крускал-Уоллис ?
Serendipity
1
@Serendipity: я действительно не знаю достаточно о Kruskal-Wallis, чтобы дать вам ответ здесь. Но я подозреваю, что ANOVA-подобные методы здесь не то, что нужно, так как (1) он не использует парный характер данных и (2) он набирает силу по сравнению с множественными сравнениями, потому что нулевая гипотеза - это просто «все модели». выполнить одинаково "- если это отклонено, вы все еще не знаете, какой алгоритм (ы) работает по-другому. Поэтому его можно использовать только для выделения отрицательных результатов (не имеет значения, какой алгоритм вы выберете). Я подозреваю, что есть большая зона, где ANOVA сообщает вам не о всех моделях ...
cbeleites поддерживает Monica
... равны, но у вас недостаточно информации, чтобы провести несколько сравнений, которые необходимы для определения лучших моделей.
cbeleites поддерживает Монику
6

Вам нужно модифицировать загрузчик (.632, .632+) только потому, что в оригинальном исследовании использовалось прерывистое неправильное правило оценки (пропорция классифицирована правильно). Для других показателей точности обычный загрузчик оптимизма имеет тенденцию работать нормально. Для получения дополнительной информации см. Http://biostat.mc.vanderbilt.edu/RmS#Studies_of_Methods_Used_in_the_T

Неправильные правила подсчета очков вводят вас в заблуждение относительно выбора функций и их веса. Другими словами, все, что может пойти не так, пойдет не так.

Фрэнк Харрелл
источник
4

Из 'Прикладного прогнозного моделирования., Кхун. Джонсон . с.78

«Ни один из методов повторной выборки не может быть лучше, чем другой; выбор должен быть сделан с учетом нескольких факторов. Если размер выборки невелик, мы рекомендуем использовать повторную 10-кратную перекрестную проверку по нескольким причинам; свойства смещения и дисперсии хорошие, и учитывая размер выборки приводит к небольшим вычислительным затратам. Если целью является выбор между моделями, а не получение наилучшего показателя производительности, можно привести веские аргументы в пользу использования одной из процедур начальной загрузки, поскольку они имеют очень низкую дисперсию. Для больших размеров выборки различия между методами передискретизации становятся менее заметными, а вычислительная эффективность увеличивается в производительности ». п. 78

Кроме того, учитывая выбор двух похожих результатов, более предпочтительная модель, как правило, предпочтительнее. В качестве примера (из того же текста), используя 10-кратное CV, классификатор SVM имел оценку точности 75% с результатами повторной выборки между 66 и 82%. Те же параметры были использованы в классификаторе логистической регрессии с точностью 74,9% и тем же диапазоном повторной выборки. Может быть предпочтительна более простая модель логистической регрессии, поскольку легче интерпретировать результаты.

похлопывание
источник
4
Обратите внимание, что дисперсию, которую можно уменьшить , запустив большое количество итераций / повторов при начальной загрузке / перекрестной проверке, - это только часть дисперсии, возникающая из-за нестабильности суррогатных моделей. Вы можете измерить, является ли это основным вкладом в общую дисперсию, путем перекрестной проверки, поскольку она проверяет каждую выборку ровно один раз во время каждого прогона, поэтому отклонение из-за конечного размера выборки не отображается при сравнении средних значений полных прогонов перекрестной проверки. , Для «жесткой» классификации вы можете рассчитать дисперсию из-за конечного размера выборки из биномиального распределения.
cbeleites поддерживает Монику
@cbeleites: Не могли бы вы немного объяснить, что вы имеете в виду, когда он «проверяет каждую выборку ровно один раз во время каждого прогона, поэтому отклонение из-за конечного размера выборки не отображается при сравнении средних значений полных прогонов перекрестной проверки». (ссылки тоже хороши!) (+1 ясно)
usεr11852 говорит восстановить Monic
@ usεr11852: каждый случай проверяется ровно один раз за цикл перекрестной проверки. Представьте себе таблицу с результатами n_sample xr CV. Если у нас есть стабильные прогнозы, все r прогнозов для одного и того же случая одинаковы. Т.е. нет расхождений по рядам. Но разные случаи могут давать разные прогнозы (если мы не имеем, например, 100% точности): у нас есть отклонения по столбцам. Теперь стандартная оценка повторной / повторной перекрестной оценки заключается в сравнении средних значений по столбцам. Для стабильных моделей они точно такие же, даже если у нас есть расхождение по столбцам, то есть между случаями.
cbeleites поддерживает Монику
(Если модели / прогнозы нестабильны, мы получаем разные прогнозы по разным суррогатным моделям и видим отклонения по строкам. Плюс некоторая дополнительная дисперсия по столбцам, поскольку каждый столбец в k-кратном CV охватывает k различных суррогатных моделей. ) Таким образом, для измерения стабильности модели / прогнозирования (in), возможно, даже более прямым будет перейти непосредственно к дисперсии вдоль строк, то есть к дисперсии прогнозов различных суррогатных моделей для одного и того же случая.
cbeleites поддерживает Монику
1
@cbeleites: Большое спасибо за разъяснения. Теперь я могу оценить, что вы делаете больше.
usεr11852 говорит восстановить Monic