Скажем, у меня есть два метода обучения для задачи классификации , и , и что я оцениваю их эффективность обобщения с помощью чего-то вроде повторной перекрестной проверки или начальной загрузки. Из этого процесса я получаю распределение оценок и для каждого метода по всем этим повторениям (например, распределение значений ROC AUC для каждой модели).B P A P B
Глядя на эти распределения, это может быть но (то есть ожидаемая производительность обобщения выше, чем , но в этой оценке больше неопределенности).σ A ≥ σ B A B
Я думаю, что это называется дилеммой отклонения в регрессии.
Какие математические методы я могу использовать для сравнения и и в конечном итоге принять обоснованное решение о том, какую модель использовать?P B
Примечание. Для простоты я имею в виду два метода и , но мне интересны методы, которые можно использовать для сравнения распределения баллов по ~ 1000 методам обучения (например, по сеточному поиску) и, в конечном итоге, для окончательное решение о том, какую модель использовать.B
источник
Ответы:
Если есть только два метода, A и B, я бы рассчитал вероятность того, что для произвольного обучающего / тестового раздела ошибка (согласно некоторой подходящей метрике производительности) для модели A была ниже, чем ошибка для модели B. Если эта вероятность были больше 0,5, я бы выбрал модель A, а в противном случае модель B (см. U-критерий Манна-Уитни?) Однако я сильно подозреваю, что в конечном итоге выберут модель с более низким средним, если распределения статистики производительности не очень -симметричный.
С другой стороны, для поиска по сетке ситуация несколько иная, поскольку вы на самом деле не сравниваете разные методы, а вместо этого настраиваете (гипер-) параметры одной и той же модели, чтобы они соответствовали конечной выборке данных (в данном случае косвенно через перекрестный анализ). -Проверка). Я обнаружил, что этот вид настройки может быть очень склонен к переоснащению, см. Мою статью
Гэвин К. Коули, Никола Л. К. Тэлбот, «О переоснащении при выборе модели и смещении последующего выбора при оценке эффективности», Журнал исследований в области машинного обучения, 11 (июль): 2079-2107, 2010. ( www )
У меня есть обзорная статья, в которой показано, что, вероятно, лучше всего использовать относительно грубую сетку для машин ядра (например, SVM), чтобы избежать чрезмерного соответствия критерию выбора модели. Другой подход (который я не исследовал, так что будьте осторожны, лектор!) Состоял бы в выборе модели с наибольшей ошибкой, которая статистически не уступает лучшей модели, найденной при поиске по сетке (хотя это может быть довольно пессимистичный подход, особенно для небольших наборов данных).
Однако реальным решением, вероятно, является не оптимизация параметров с использованием поиска по сетке, а усреднение по значениям параметров либо в байесовском подходе, либо просто в виде ансамблевого метода. Если вы не оптимизируете, его сложнее перенести!
источник
"average over the parameter values"
я думаю, вы понимаете, как сделать это с помощью метода ансамбля (например, построение вывода ансамбля как среднего значения выходов классификатора), но я не уверен, как это сделать с байесовским подходом при работе с дискриминационной моделью. Я понимаю теорию полностью байесовского подхода (то есть избегаю точечных оценок и маргинализирую параметры для построения окончательного апостериорного значения), но, если предположить, что мой априор по параметрам одинаков, это не будет эквивалентно построению ансамбля усреднения ?