Лучший подход для выбора модели байесовской или перекрестной проверки?

22

При попытке выбора между различными моделями или количеством функций, например, для прогнозирования, я могу придумать два подхода.

  1. Разделите данные на обучающие и тестовые наборы. Еще лучше использовать начальную загрузку или перекрестную проверку в k-кратном порядке. Каждый раз тренируйтесь на тренировочном наборе и рассчитывайте погрешность на тестовом наборе. Ошибка проверки графика в зависимости от количества параметров. Обычно вы получаете что-то вроде этого:введите описание изображения здесь
  2. Вычислите вероятность модели, интегрируя значения параметров. то есть, вычислить ; и черчения это против числа параметров. Затем мы получаем что-то вроде этого:θп(D|θ)п(θ)dθвведите описание изображения здесь

Итак, мои вопросы:

  1. Подходят ли эти подходы для решения этой проблемы (решение, сколько параметров включить в вашу модель, или выбор из ряда моделей)?
  2. Они эквивалентны? Возможно нет. Дадут ли они одну и ту же оптимальную модель при определенных допущениях или на практике?
  3. Помимо обычной философской разницы в определении предшествующих знаний в байесовских моделях и т. Д., Каковы плюсы и минусы каждого подхода? Какой бы вы выбрали?

Обновление: я также нашел связанный вопрос по сравнению AIC и BIC. Кажется, что мой метод 1 асимптотически эквивалентен AIC, а метод 2 асимптотически связан с BIC. Но я также читал там, что BIC эквивалентен Leave-One-Out CV. Это означало бы, что минимум ошибки обучения и максимум байесовского правдоподобия эквивалентны, когда LOO CV эквивалентно K-кратному CV. Возможно, очень интересная статья Джун Шао « Асимптотическая теория выбора линейной модели » относится к этим вопросам.

высокая пропускная способность
источник
У меня на самом деле нет полного ответа, но я упомяну, что я обычно не думал бы об использовании любого метода, чтобы «выбрать количество функций». В целом, я интерпретирую машинное обучение и байесовскую статистику так, чтобы они просто включали все функции, поскольку все они, вероятно, имеют некоторый уровень минимального воздействия. Тем не менее, я думаю, что вопрос относительной сложности модели все еще актуален. Я также скажу, что я никогда не делал байесовский вывод, на который вы намекаете; на практике это кажется слишком запутанным по сравнению с простотой k-fold или начальной загрузки.
Shea Parkes
Обратите внимание, что бумага Shao работает только для линейных моделей; на самом деле, только их простая структура делает количество признаков пригодным для использования в качестве меры сложности и, таким образом, обеспечивает все эти информационные критерии.
1
AIC (а не BIC! ) Асимптотически эквивалентен перекрестной проверке с пропуском при слабых допущениях (из-за Стоуна «Асимптотическая эквивалентность выбора модели путем перекрестной проверки и критерия Акаике» (1977) ). Источник в вопросе, на который вы ссылаетесь, был неверным и был исправлен Робом Хиндманом в комментарии. Я подумал, что это может быть хорошей идеей, чтобы исправить это здесь, чтобы перестать распространять неправильную идею.
Ричард Харди

Ответы:

13
  1. Подходят ли эти подходы для решения этой проблемы (решение, сколько параметров включить в вашу модель, или выбор из ряда моделей)?

Да, любой может быть, да. Если вы заинтересованы в получении модели, которая лучше всего предсказывает, из списка моделей, которые вы рассматриваете, подход разделения / перекрестной проверки может сделать это хорошо. Если вас интересует, какая из моделей (в вашем списке предполагаемых моделей) на самом деле является той, которая генерирует ваши данные, тогда вам нужен второй подход (оценка апостериорной вероятности моделей).

  1. Они эквивалентны? Возможно нет. Дадут ли они одну и ту же оптимальную модель при определенных допущениях или на практике?

Нет, они вообще не эквивалентны. Например, использование AIC (информационный критерий Акаике) для выбора «лучшей» модели приблизительно соответствует перекрестной проверке. Использование BIC (Байесовский информационный критерий) соответствует использованию апостериорных вероятностей, опять же приблизительно. Это не один и тот же критерий, поэтому следует ожидать, что они приведут к различным вариантам выбора в целом. Они могут дать те же ответы - всякий раз, когда модель, которая предсказывает лучшее, также оказывается правдой - но во многих ситуациях модель, которая подходит лучше всего, на самом деле является той, которая подходит лучше, что приводит к разногласиям между подходами.

Согласны ли они на практике? Это зависит от того, что включает в себя ваша «практика». Попробуйте оба способа и узнайте.

  1. Помимо обычной философской разницы в определении предшествующих знаний в байесовских моделях и т. Д., Каковы плюсы и минусы каждого подхода? Какой из них вы бы выбрали?
  • Как правило, расчеты для перекрестной проверки гораздо проще, чем вычисление апостериорных вероятностей.
  • Зачастую трудно убедительно доказать, что «истинная» модель входит в список, из которого вы выбираете. Это проблема использования апостериорных вероятностей, но не перекрестной проверки
  • Оба метода имеют тенденцию включать использование довольно произвольных констант; Сколько стоит дополнительная единица предсказания в терминах количества переменных? Насколько мы верим каждой из моделей априори ?
    • Я бы, наверное, выбрал перекрестную проверку. Но перед принятием решения я бы хотел узнать много нового о том, почему был сделан этот выбор модели, то есть для чего использовалась выбранная модель. Ни одна из форм выбора модели может не подходить, если, например, требуется причинный вывод.
гость
источник
16

Оптимизация - корень зла в статистике! ; О)

Каждый раз, когда вы пытаетесь выбрать модель на основе критерия, который оценивается на конечной выборке данных, вы рискуете переопределить критерий выбора модели и в результате получите худшую модель, чем вы начали. И перекрестная проверка, и предельное правдоподобие являются разумными критериями выбора модели, но они оба зависят от конечной выборки данных (как и AIC и BIC - штраф за сложность может помочь, но не решает эту проблему). Я обнаружил, что это является существенной проблемой в машинном обучении, см.

GC Cawley и NLC Talbot, Чрезмерная подгонка при выборе модели и последующий уклон выбора при оценке производительности, Journal of Machine Learning Research, 2010. Research, vol. 11, с. 2079-2107, июль 2010 г. ( www )

С байесовской точки зрения, лучше интегрировать все варианты и параметры модели. Если вы не оптимизируете или не выбираете что-либо, тогда это становится труднее переоценить. Недостатком является то, что вы сталкиваетесь со сложными интегралами, которые часто нужно решать с помощью MCMC. Если вам нужна лучшая прогностическая эффективность, я бы предложил полностью байесовский подход; если вы хотите понять данные, то выбор наилучшей модели часто бывает полезен. Однако, если вы повторно выбираете данные и каждый раз получаете новую модель, это означает, что процедура подбора нестабильна, и ни одна из моделей не является надежной для понимания данных.

Обратите внимание, что одно важное различие между перекрестной проверкой и доказательством состоит в том, что значение предельного правдоподобия предполагает, что модель не определена неправильно (по существу, базовая форма модели является подходящей) и может дать ошибочные результаты, если таковые имеются. Перекрестная проверка не делает такого предположения, что означает, что она может быть немного более надежной.

Дикран Сумчатый
источник
Байесовская интеграция - сильный подход. Но всегда задавайтесь вопросом, является ли выбор модели правильным выбором. Какова мотивация? Почему бы не поставить законченную модель, которая была бы гибкой, и просто подходила бы ей?
Фрэнк Харрелл
@FrankHarrell Многие гибкие модели включают в себя термины регуляризации и другие гиперпараметры, и их настройка также является выбором модели и связана с теми же проблемами, что и перебор критерия выбора. Подгонка представляет риск переоснащения, и это применимо на всех уровнях. Однако если вы априори знаете о структуре модели, то эти экспертные знания следует использовать.
Дикран Marsupial
1
Лучше всего искать метод, который не требует настройки, но это не всегда возможно. Я хочу сказать, что спецификация модели работает лучше, чем выбор модели, и не предполагаю, что выбор функции является благородной целью.
Фрэнк Харрелл
Выбор функции @FrankHarrell очень редко бывает полезен. По возможности следует избегать оптимизации, которая включает выбор любой модели / настройку на основе конечной выборки данных (конечно, чем больше выборка, тем ниже риск).
Дикран Marsupial