Какой метод выборки является наиболее подходящим для оценки производительности классификатора на конкретном наборе данных и сравнения его с другими классификаторами? Перекрестная проверка кажется стандартной практикой, но я читал, что такие методы, как .632 начальной загрузки, являются лучшим выбором.
В качестве продолжения: влияет ли выбор метрики производительности на ответ (если я использую AUC вместо точности)?
Моя конечная цель - с уверенностью сказать, что один метод машинного обучения превосходит другой для определенного набора данных.
Ответы:
Одним из важных отличий в обычном способе перекрестной проверки и методов вне начальной загрузки является то, что большинство людей применяют перекрестную проверку только один раз (т. Е. Каждый случай проверяется ровно один раз), тогда как проверка вне начальной загрузки выполняется с большим количеством повторений / итераций. В этой ситуации перекрестная проверка подвержена большей дисперсии из-за нестабильности модели. Однако этого можно избежать, используя, например, повторную / повторную перекрестную проверку вК кратном размере. Если это будет сделано, по крайней мере для спектроскопических наборов данных, с которыми я работал, общая ошибка обеих схем повторной выборки на практике будет одинаковой.
Не рекомендуется проводить перекрестную проверку по принципу «один-один-один-один», поскольку нет возможности уменьшить дисперсию типа нестабильности модели, и есть некоторые классификаторы и проблемы, в которых она проявляет огромный пессимистический уклон.
.632 bootstrap делает разумную работу, если ошибка повторной выборки не слишком оптимистична. (Например, для данных, с которыми я работаю, очень широкие матрицы с большим количеством вариаций, это не очень хорошо работает, поскольку модели подвержены серьезному переоснащению). Это также означает, что я бы не использовал загрузчик .632 для сравнения моделей различной сложности. С загрузкой .632+ у меня нет опыта: если перегрузка произойдет и будет правильно обнаружена, она будет равна исходной оценке вне начальной загрузки, поэтому я придерживаюсь простой работы или повторяемой / повторной перекрестной проверки для моих данных.
Литература:
(классический )
У Догерти и Брага-Нето есть ряд публикаций по этой теме , например
Dougherty, ER et al. : Эффективность оценщиков ошибок для классификации текущей биоинформатики, 2010, 5, 53-67
Beleites, C. et al. : Уменьшение дисперсии в оценке ошибки классификации с использованием разреженных наборов данных Chemom Intell Lab Syst, 2005, 79, 91 - 100.
У нас есть сравнение выполнения перекрестной проверки только один раз или повторения / повторения, и сравнение с использованием out-of-bootstrap и .632 Самозагрузка также для особенно широких данных с мультиколлинеарностью.
Kim, J.-H .: Оценка частоты ошибок классификации: повторная перекрестная проверка, повторное удержание и начальная загрузка, вычислительная статистика и анализ данных, 2009, 53, 3735–374.К
Также обнаруживается, что повторная / повторная перекрестная проверка в кратном размере и out-of-bootstrap имеет аналогичную производительность (в отличие от перекрестной проверки только один раз).
Выбор метрики:
Точность (о которой @FrankHarrell скажет вам, что это неправильный выбор, поскольку она не является правильным правилом оценки ), подвержена высокой дисперсии, поскольку она считает каждый случай либо полностью правильным, либо полностью неправильным, даже если классификатор предсказал, например, только 60 % апостериорная вероятность того, что тестовый набор будет принадлежать данному классу. Правильным правилом оценки является, например, оценка Бриера, которая тесно связана со среднеквадратичной ошибкой в регрессии.
Аналоги среднеквадратичной ошибки доступны для таких пропорций, как точность, чувствительность, специфичность, прогнозные значения: Beleites, C. et al. Валидация мягких классификационных моделей с использованием частичного членства в классе: расширенная концепция чувствительности & Co, применяемая для классификации тканей астроцитомы, Chemom Intell Lab Syst, 2013, 122, 12 - 22; DOI: 10.1016 / j.chemolab.2012.12.003 (страница сводки также содержит ссылку на препринт)
Используйте парный тест, чтобы оценить это. Для сравнения пропорций взгляните на тест Макнемара.
Ответ на это будет зависеть от выбора метрики. Так как меры ошибки регрессионного типа не имеют этапа «закалки», связанного с сокращением решений с пороговым значением, они часто имеют меньшую дисперсию, чем их классификационные аналоги. Метрики, такие как точность, которые в основном являются пропорциями, потребуют огромного количества тестовых случаев, чтобы установить превосходство одного классификатора над другим.
Fleiss: «Статистические методы для норм и пропорций» приводит примеры (и таблицы) для непарного сравнения пропорций. Чтобы дать вам представление о том, что я имею в виду под «огромными размерами выборки», взгляните на изображение в моем ответе на этот другой вопрос . Для парных тестов, подобных МакНемару, требуется меньше тестовых случаев, но в лучшем случае IIRC все еще составляет половину (?) Размера выборки, необходимого для непарного теста.
Чтобы охарактеризовать производительность классификатора (усиленная), вам обычно нужна рабочая кривая не менее двух значений, таких как ROC (чувствительность или специфичность) или тому подобное.
Я редко использую общую точность или AUC, так как мои приложения обычно имеют ограничения, например, что чувствительность важнее, чем специфичность, или должны быть соблюдены определенные границы этих мер. Если вы выбираете характеристики суммы «одно число», убедитесь, что рабочая точка моделей, на которые вы смотрите, действительно находится в разумном диапазоне.
Для обеспечения точности и других показателей производительности, которые суммируют производительность для нескольких классов в соответствии с ссылочными метками, убедитесь, что вы учитываете относительную частоту классов, с которыми вы столкнетесь в приложении - что не обязательно совпадает с тем, что в вашем приложении. данные тренировок или испытаний.
Провост Ф. и соавт. : Аргумент против оценки точности для сравнения алгоритмов индукции в материалах пятнадцатой международной конференции по машинному обучению, 1998 г.
редактировать: сравнение нескольких классификаторов
Я долго думал об этой проблеме, но пока не нашел решения (и не встречал никого, кто имел решение).
Вот что у меня так далеко:
Проблема в том, что вы очень быстро сталкиваетесь с массивной ситуацией множественного сравнения.
Тем не менее, вы можете сказать, что для приложений, которые у меня под рукой, множественные сравнения на самом деле не ухудшают ситуацию, потому что я редко проводил тестовые случаи, чтобы позволить даже одно сравнение ...
Я думаю, что настройка гиперпараметров модели - это специализированная версия общей проблемы сравнения моделей, которая может быть проще для начала. Однако ходят слухи, что качество моделей во многом зависит от опыта того, кто их создает, возможно, даже в большей степени, чем от выбора типа модели.
На данный момент я решил, что «оптимизация - корень всего зла», и вместо этого выбрал совершенно другой подход:
я решаю, насколько это возможно, исходя из экспертных знаний о рассматриваемой проблеме. Это на самом деле позволяет сузить круг вещей, так что я часто могу избежать сравнения моделей. Когда мне приходится сравнивать модели, я стараюсь быть очень открытым и ясным, напоминая людям о неопределенности оценки эффективности и о том, что сравнение множества моделей является AFAIK все еще нерешенной проблемой.
Редактировать 2: парные тесты
Среди моделей вы можете сделать сравнений между двумя разными моделями (что представляет собой сложную ситуацию множественного сравнения), я не знаю, как правильно это сделать. Тем не менее, в паре1N 12( н2- н ) теста означает только тот факт, что, поскольку все модели тестируются с одинаковыми тестовыми примерами, вы можете разделить эти случаи на «простые» и «сложные» случаи, с одной стороны, для которых все модели получают правильные значения (или неверный прогноз Они не помогают различать модели. С другой стороны, есть «интересные» случаи, которые некоторые предсказывают правильно, но не другие модели. Только эти «интересные» случаи должны рассматриваться для оценки превосходства, ни «простые», ни «сложные» случаи не помогают в этом. (Вот как я понимаю идею теста Макнемара).
Я полагаю, что при множественном множественном сравнении моделей одна проблема заключается в том, что, если вам не повезет, чем больше моделей вы сравните, тем меньше случаев вы сможете исключить из дальнейших рассуждений: даже если все модели действительно равны по своим В целом, становится все менее вероятным, что случай в конечном итоге будет всегда правильно (или всегда неправильно) предсказываться моделями.нN N
источник
Вам нужно модифицировать загрузчик (.632, .632+) только потому, что в оригинальном исследовании использовалось прерывистое неправильное правило оценки (пропорция классифицирована правильно). Для других показателей точности обычный загрузчик оптимизма имеет тенденцию работать нормально. Для получения дополнительной информации см. Http://biostat.mc.vanderbilt.edu/RmS#Studies_of_Methods_Used_in_the_T
Неправильные правила подсчета очков вводят вас в заблуждение относительно выбора функций и их веса. Другими словами, все, что может пойти не так, пойдет не так.
источник
Из 'Прикладного прогнозного моделирования., Кхун. Джонсон . с.78
«Ни один из методов повторной выборки не может быть лучше, чем другой; выбор должен быть сделан с учетом нескольких факторов. Если размер выборки невелик, мы рекомендуем использовать повторную 10-кратную перекрестную проверку по нескольким причинам; свойства смещения и дисперсии хорошие, и учитывая размер выборки приводит к небольшим вычислительным затратам. Если целью является выбор между моделями, а не получение наилучшего показателя производительности, можно привести веские аргументы в пользу использования одной из процедур начальной загрузки, поскольку они имеют очень низкую дисперсию. Для больших размеров выборки различия между методами передискретизации становятся менее заметными, а вычислительная эффективность увеличивается в производительности ». п. 78
Кроме того, учитывая выбор двух похожих результатов, более предпочтительная модель, как правило, предпочтительнее. В качестве примера (из того же текста), используя 10-кратное CV, классификатор SVM имел оценку точности 75% с результатами повторной выборки между 66 и 82%. Те же параметры были использованы в классификаторе логистической регрессии с точностью 74,9% и тем же диапазоном повторной выборки. Может быть предпочтительна более простая модель логистической регрессии, поскольку легче интерпретировать результаты.
источник