Я посвятил много времени разработке методов и программного обеспечения для проверки прогностических моделей в традиционной статистической области. Внедряя больше байесовских идей в практику и обучая, я вижу некоторые ключевые отличия, которые следует принять Во-первых, байесовское прогнозирующее моделирование требует от аналитика тщательно продумать предыдущие распределения, которые могут быть адаптированы к возможностям-кандидатам, и эти приоритеты будут подтягивать модель к ним (т. Е. Достигать сокращения / штрафа / регуляризации с различными уровнями штрафов за разные прогнозирующие функции). ). Во-вторых, «реальный» байесовский путь не приводит к единой модели, а для прогноза можно получить полное апостериорное распределение.
С учетом этих байесовских особенностей что означает переоснащение? Должны ли мы оценить это? Если да, то как? Как мы узнаем, что байесовская модель надежна для использования в полевых условиях? Или это спорный вопрос, поскольку апостериор будет нести все неопределенности, связанные с осторожностью, когда мы используем модель, которую мы разработали для прогнозирования?
Как изменилось бы мышление, если бы мы заставили байесовскую модель перегонять в одно число, например, задний средний / модальный / медианный риск?
Я вижу некоторые связанные мысли здесь . Параллельное обсуждение может быть найдено здесь .
Дополнительный вопрос :: Если мы полностью байесовские и потратили некоторое время на размышления о априорах, прежде чем увидеть данные, и мы подбираем модель, в которой вероятность данных была определена надлежащим образом, мы вынуждены быть удовлетворенными нашей моделью в отношении переобучения ? Или нам нужно делать то, что мы делаем в мире частых посещений, где случайно выбранный субъект может быть предсказан в среднем хорошо, но если мы выберем субъекта с очень низким прогнозом или предмета с очень высоким прогнозируемым значением, будет регрессия значит?
Ответы:
Я мог бы начать с того, что байесовская модель не может систематически переоценивать (или недооценивать) данные, которые извлекаются из предшествующего прогнозного распределения, что является основой для процедуры проверки правильности работы байесовского программного обеспечения перед его применением к данным, собранным из Мир.
Но он может превосходить один набор данных, взятый из предыдущего прогнозного распределения, или один набор данных, собранный из мира, в том смысле, что различные прогнозные меры, применяемые к данным, на которые вы опирались, выглядят лучше, чем те же самые прогнозные меры, применяемые к будущим данным, которые генерируется тем же процессом. Глава 6 байесовской книги Ричарда Мак-Элирея посвящена переоснащению.
Тяжесть и частота переоснащения могут быть уменьшены хорошими априорами, особенно теми, которые информативны о масштабе эффекта. Помещая исчезающую априорную вероятность в неправдоподобно большие значения, вы препятствуете чрезмерному возбуждению апостериорного распределения каким-то идиосинкразическим аспектом данных, на которые вы ссылаетесь, которые могут предполагать невероятно большой эффект.
Наилучшие способы обнаружения переоснащения включают перекрестную проверку «один-на-один», которая может быть аппроксимирована по апостериорному распределению, которое фактически не оставляет никаких наблюдений из набора условий. Существует предположение, что никакое отдельное «наблюдение» [*], на которое вы ссылаетесь, не оказывает слишком большого влияния на апостериорное распределение, но это предположение можно проверить, оценивая размер оценки параметра формы в обобщенном распределении Парето, которое соответствие весам выборки по важности (которые получены из логарифмической вероятности наблюдения, оцененного для каждого взятия из апостериорного распределения). Если это предположение выполнено, то вы можете получить прогнозирующие меры для каждого наблюдения, как если бы это наблюдение было опущено, апостериор был взят из условных данных остальных наблюдений, а апостериорное предиктивное распределение было построено для опущенного наблюдения. Если ваши прогнозы об опущенных наблюдениях пострадают, значит, ваша модель была слишком подходящей для начала. Эти идеи реализованы вЛо пакет для R, который включает в себя цитаты, такие как здесь и там .
Что касается перегонки в одно число, мне нравится рассчитывать долю наблюдений, которые попадают в интервалы прогнозирования 50%. Поскольку эта пропорция больше половины, модель переоснащается, хотя вам нужно больше, чем несколько наблюдений, чтобы прорезать шум в функции индикатора включения. Для сравнения различных моделей (которые могут соответствовать) ожидаемая логарифмическая прогностическая плотность (которая рассчитывается
loo
функцией в туалетеПакет) является хорошей мерой (предложенной IJ Good), поскольку она учитывает возможность того, что более гибкая модель может соответствовать доступным данным лучше, чем менее гибкая модель, но, как ожидается, прогнозирует будущие данные хуже. Но эти идеи могут быть применены к ожиданию любой прогнозирующей меры (которая может быть более интуитивной для практиков); см.E_loo
функцию в пакете уборной .[*] Вы должны выбрать, что представляет собой наблюдение в иерархической модели. Например, вы заинтересованы в прогнозировании нового пациента или нового момента времени для существующего пациента? Вы можете сделать это любым способом, но первый требует, чтобы вы (пере) написали функцию правдоподобия, чтобы интегрировать специфичные для пациента параметры.
источник
Переоснащение означает, что модель хорошо работает на тренировочном наборе, но плохо работает на тестовом наборе. ИМХО, это происходит из двух источников: данные и модель, которую мы используем (или наша субъективность).
В результате, если мы часты, то источником переоснащения является MLE. Если мы байесовские, то это происходит из (субъективного) выбора предшествующего распределения (и, конечно, выбора вероятности)). Таким образом, даже если вы используете апостериорное распределение / среднее значение / медиана, вы уже переоснащены с самого начала, и это переоснащение продолжается. Правильный выбор предварительного распределения и вероятности поможет, но они все еще являются моделями, и вы никогда не сможете полностью избежать переобучения.
источник