При попытке выбора между различными моделями или количеством функций, например, для прогнозирования, я могу придумать два подхода.
- Разделите данные на обучающие и тестовые наборы. Еще лучше использовать начальную загрузку или перекрестную проверку в k-кратном порядке. Каждый раз тренируйтесь на тренировочном наборе и рассчитывайте погрешность на тестовом наборе. Ошибка проверки графика в зависимости от количества параметров. Обычно вы получаете что-то вроде этого:
- Вычислите вероятность модели, интегрируя значения параметров. то есть, вычислить ; и черчения это против числа параметров. Затем мы получаем что-то вроде этого:
Итак, мои вопросы:
- Подходят ли эти подходы для решения этой проблемы (решение, сколько параметров включить в вашу модель, или выбор из ряда моделей)?
- Они эквивалентны? Возможно нет. Дадут ли они одну и ту же оптимальную модель при определенных допущениях или на практике?
- Помимо обычной философской разницы в определении предшествующих знаний в байесовских моделях и т. Д., Каковы плюсы и минусы каждого подхода? Какой бы вы выбрали?
Обновление: я также нашел связанный вопрос по сравнению AIC и BIC. Кажется, что мой метод 1 асимптотически эквивалентен AIC, а метод 2 асимптотически связан с BIC. Но я также читал там, что BIC эквивалентен Leave-One-Out CV. Это означало бы, что минимум ошибки обучения и максимум байесовского правдоподобия эквивалентны, когда LOO CV эквивалентно K-кратному CV. Возможно, очень интересная статья Джун Шао « Асимптотическая теория выбора линейной модели » относится к этим вопросам.
bayesian
model-selection
cross-validation
feature-selection
высокая пропускная способность
источник
источник
Ответы:
Да, любой может быть, да. Если вы заинтересованы в получении модели, которая лучше всего предсказывает, из списка моделей, которые вы рассматриваете, подход разделения / перекрестной проверки может сделать это хорошо. Если вас интересует, какая из моделей (в вашем списке предполагаемых моделей) на самом деле является той, которая генерирует ваши данные, тогда вам нужен второй подход (оценка апостериорной вероятности моделей).
Нет, они вообще не эквивалентны. Например, использование AIC (информационный критерий Акаике) для выбора «лучшей» модели приблизительно соответствует перекрестной проверке. Использование BIC (Байесовский информационный критерий) соответствует использованию апостериорных вероятностей, опять же приблизительно. Это не один и тот же критерий, поэтому следует ожидать, что они приведут к различным вариантам выбора в целом. Они могут дать те же ответы - всякий раз, когда модель, которая предсказывает лучшее, также оказывается правдой - но во многих ситуациях модель, которая подходит лучше всего, на самом деле является той, которая подходит лучше, что приводит к разногласиям между подходами.
Согласны ли они на практике? Это зависит от того, что включает в себя ваша «практика». Попробуйте оба способа и узнайте.
источник
Оптимизация - корень зла в статистике! ; О)
Каждый раз, когда вы пытаетесь выбрать модель на основе критерия, который оценивается на конечной выборке данных, вы рискуете переопределить критерий выбора модели и в результате получите худшую модель, чем вы начали. И перекрестная проверка, и предельное правдоподобие являются разумными критериями выбора модели, но они оба зависят от конечной выборки данных (как и AIC и BIC - штраф за сложность может помочь, но не решает эту проблему). Я обнаружил, что это является существенной проблемой в машинном обучении, см.
С байесовской точки зрения, лучше интегрировать все варианты и параметры модели. Если вы не оптимизируете или не выбираете что-либо, тогда это становится труднее переоценить. Недостатком является то, что вы сталкиваетесь со сложными интегралами, которые часто нужно решать с помощью MCMC. Если вам нужна лучшая прогностическая эффективность, я бы предложил полностью байесовский подход; если вы хотите понять данные, то выбор наилучшей модели часто бывает полезен. Однако, если вы повторно выбираете данные и каждый раз получаете новую модель, это означает, что процедура подбора нестабильна, и ни одна из моделей не является надежной для понимания данных.
Обратите внимание, что одно важное различие между перекрестной проверкой и доказательством состоит в том, что значение предельного правдоподобия предполагает, что модель не определена неправильно (по существу, базовая форма модели является подходящей) и может дать ошибочные результаты, если таковые имеются. Перекрестная проверка не делает такого предположения, что означает, что она может быть немного более надежной.
источник