Сравнение распределений производительности обобщения

10

Скажем, у меня есть два метода обучения для задачи классификации , и , и что я оцениваю их эффективность обобщения с помощью чего-то вроде повторной перекрестной проверки или начальной загрузки. Из этого процесса я получаю распределение оценок и для каждого метода по всем этим повторениям (например, распределение значений ROC AUC для каждой модели).B P A P BAB PAPB

Глядя на эти распределения, это может быть но (то есть ожидаемая производительность обобщения выше, чем , но в этой оценке больше неопределенности).σ Aσ B A BμAμBσAσBAB

Я думаю, что это называется дилеммой отклонения в регрессии.

Какие математические методы я могу использовать для сравнения и и в конечном итоге принять обоснованное решение о том, какую модель использовать?P BPAPB

Примечание. Для простоты я имею в виду два метода и , но мне интересны методы, которые можно использовать для сравнения распределения баллов по ~ 1000 методам обучения (например, по сеточному поиску) и, в конечном итоге, для окончательное решение о том, какую модель использовать.BAB

Амелио Васкес-Рейна
источник
Я думаю, что термин компромисс дисперсии здесь не применим, потому что вы не разбиваете среднеквадратичную ошибку на смещение и дисперсию, и вы говорите не о дисперсии оценки, а о дисперсии оценки.
Лукас
Спасибо @Lucas. Я пытаюсь оценить оценку моих классификаторов и по невидимым данным. Для этого, я думал , что я мог бы взять среднее баллов по видели данные , как мои оценки (т.е. и для и соответственно). ли дисперсия этих оценок от дисперсии баллов и ? B E ( P A ) E ( P B ) A B P A P BABE(PA)E(PB)ABPAPB
Амелио Васкес-Рейна
2
@ user815423426 Я думаю, что сравнение зависит от вашей функции потерь. У Diebold и Mariano (2002) есть хорошая статья, в которой изучается ваш вопрос. Они предложили несколько статистических тестов, сравнивающих эффективность «обобщения». Я не знаю, как настроить ссылку в комментариях. Бумага: Диболд, Фрэнсис X. и Роберт С. Мариано. «Сравнение прогнозирующей точности». Журнал деловой и экономической статистики 20.1 (2002): 134-144.
полубрюин

Ответы:

2

Если есть только два метода, A и B, я бы рассчитал вероятность того, что для произвольного обучающего / тестового раздела ошибка (согласно некоторой подходящей метрике производительности) для модели A была ниже, чем ошибка для модели B. Если эта вероятность были больше 0,5, я бы выбрал модель A, а в противном случае модель B (см. U-критерий Манна-Уитни?) Однако я сильно подозреваю, что в конечном итоге выберут модель с более низким средним, если распределения статистики производительности не очень -симметричный.

С другой стороны, для поиска по сетке ситуация несколько иная, поскольку вы на самом деле не сравниваете разные методы, а вместо этого настраиваете (гипер-) параметры одной и той же модели, чтобы они соответствовали конечной выборке данных (в данном случае косвенно через перекрестный анализ). -Проверка). Я обнаружил, что этот вид настройки может быть очень склонен к переоснащению, см. Мою статью

Гэвин К. Коули, Никола Л. К. Тэлбот, «О переоснащении при выборе модели и смещении последующего выбора при оценке эффективности», Журнал исследований в области машинного обучения, 11 (июль): 2079-2107, 2010. ( www )

У меня есть обзорная статья, в которой показано, что, вероятно, лучше всего использовать относительно грубую сетку для машин ядра (например, SVM), чтобы избежать чрезмерного соответствия критерию выбора модели. Другой подход (который я не исследовал, так что будьте осторожны, лектор!) Состоял бы в выборе модели с наибольшей ошибкой, которая статистически не уступает лучшей модели, найденной при поиске по сетке (хотя это может быть довольно пессимистичный подход, особенно для небольших наборов данных).

Однако реальным решением, вероятно, является не оптимизация параметров с использованием поиска по сетке, а усреднение по значениям параметров либо в байесовском подходе, либо просто в виде ансамблевого метода. Если вы не оптимизируете, его сложнее перенести!

Дикран Сумчатый
источник
Спасибо, Дикран. Когда вы говорите, "average over the parameter values"я думаю, вы понимаете, как сделать это с помощью метода ансамбля (например, построение вывода ансамбля как среднего значения выходов классификатора), но я не уверен, как это сделать с байесовским подходом при работе с дискриминационной моделью. Я понимаю теорию полностью байесовского подхода (то есть избегаю точечных оценок и маргинализирую параметры для построения окончательного апостериорного значения), но, если предположить, что мой априор по параметрам одинаков, это не будет эквивалентно построению ансамбля усреднения ?
Амелио Васкес-Рейна
1
В байесовском подходе модели будут взвешиваться по их предельной вероятности (т. Е. Байесовскому доказательству) и любому предшествующему положению по гиперпараметрам, поэтому это будет особый случай усреднения по ансамблю с определенным методом для взвешивания моделей.
Дикран Сумчатый