Байесовское мышление о переоснащении

Я посвятил много времени разработке методов и программного обеспечения для проверки прогностических моделей в традиционной статистической области. Внедряя больше байесовских идей в практику и обучая, я вижу некоторые ключевые отличия, которые следует принять Во-первых, байесовское прогнозирующее моделирование требует от аналитика тщательно продумать предыдущие распределения, которые могут быть адаптированы к возможностям-кандидатам, и эти приоритеты будут подтягивать модель к ним (т. Е. Достигать сокращения / штрафа / регуляризации с различными уровнями штрафов за разные прогнозирующие функции). ). Во-вторых, «реальный» байесовский путь не приводит к единой модели, а для прогноза можно получить полное апостериорное распределение.

С учетом этих байесовских особенностей что означает переоснащение? Должны ли мы оценить это? Если да, то как? Как мы узнаем, что байесовская модель надежна для использования в полевых условиях? Или это спорный вопрос, поскольку апостериор будет нести все неопределенности, связанные с осторожностью, когда мы используем модель, которую мы разработали для прогнозирования?

Как изменилось бы мышление, если бы мы заставили байесовскую модель перегонять в одно число, например, задний средний / модальный / медианный риск?

Я вижу некоторые связанные мысли здесь . Параллельное обсуждение может быть найдено здесь .

Дополнительный вопрос :: Если мы полностью байесовские и потратили некоторое время на размышления о априорах, прежде чем увидеть данные, и мы подбираем модель, в которой вероятность данных была определена надлежащим образом, мы вынуждены быть удовлетворенными нашей моделью в отношении переобучения ? Или нам нужно делать то, что мы делаем в мире частых посещений, где случайно выбранный субъект может быть предсказан в среднем хорошо, но если мы выберем субъекта с очень низким прогнозом или предмета с очень высоким прогнозируемым значением, будет регрессия значит?

bayesian cross-validation predictive-models validation regression-strategies Фрэнк Харрелл
источник

См. Mdpi.com/1099-4300/19/10/555/htm 5.1, 5.2

Тим

У Эндрю Гельмана есть очень важная

Фрэнк Харрелл

Ответы:

Я мог бы начать с того, что байесовская модель не может систематически переоценивать (или недооценивать) данные, которые извлекаются из предшествующего прогнозного распределения, что является основой для процедуры проверки правильности работы байесовского программного обеспечения перед его применением к данным, собранным из Мир.

Но он может превосходить один набор данных, взятый из предыдущего прогнозного распределения, или один набор данных, собранный из мира, в том смысле, что различные прогнозные меры, применяемые к данным, на которые вы опирались, выглядят лучше, чем те же самые прогнозные меры, применяемые к будущим данным, которые генерируется тем же процессом. Глава 6 байесовской книги Ричарда Мак-Элирея посвящена переоснащению.

Тяжесть и частота переоснащения могут быть уменьшены хорошими априорами, особенно теми, которые информативны о масштабе эффекта. Помещая исчезающую априорную вероятность в неправдоподобно большие значения, вы препятствуете чрезмерному возбуждению апостериорного распределения каким-то идиосинкразическим аспектом данных, на которые вы ссылаетесь, которые могут предполагать невероятно большой эффект.

Наилучшие способы обнаружения переоснащения включают перекрестную проверку «один-на-один», которая может быть аппроксимирована по апостериорному распределению, которое фактически не оставляет никаких наблюдений из набора условий. Существует предположение, что никакое отдельное «наблюдение» [*], на которое вы ссылаетесь, не оказывает слишком большого влияния на апостериорное распределение, но это предположение можно проверить, оценивая размер оценки параметра формы в обобщенном распределении Парето, которое соответствие весам выборки по важности (которые получены из логарифмической вероятности наблюдения, оцененного для каждого взятия из апостериорного распределения). Если это предположение выполнено, то вы можете получить прогнозирующие меры для каждого наблюдения, как если бы это наблюдение было опущено, апостериор был взят из условных данных остальных наблюдений, а апостериорное предиктивное распределение было построено для опущенного наблюдения. Если ваши прогнозы об опущенных наблюдениях пострадают, значит, ваша модель была слишком подходящей для начала. Эти идеи реализованы вЛо пакет для R, который включает в себя цитаты, такие как здесь и там .

Что касается перегонки в одно число, мне нравится рассчитывать долю наблюдений, которые попадают в интервалы прогнозирования 50%. Поскольку эта пропорция больше половины, модель переоснащается, хотя вам нужно больше, чем несколько наблюдений, чтобы прорезать шум в функции индикатора включения. Для сравнения различных моделей (которые могут соответствовать) ожидаемая логарифмическая прогностическая плотность (которая рассчитывается looфункцией в туалетеПакет) является хорошей мерой (предложенной IJ Good), поскольку она учитывает возможность того, что более гибкая модель может соответствовать доступным данным лучше, чем менее гибкая модель, но, как ожидается, прогнозирует будущие данные хуже. Но эти идеи могут быть применены к ожиданию любой прогнозирующей меры (которая может быть более интуитивной для практиков); см. E_looфункцию в пакете уборной .

[*] Вы должны выбрать, что представляет собой наблюдение в иерархической модели. Например, вы заинтересованы в прогнозировании нового пациента или нового момента времени для существующего пациента? Вы можете сделать это любым способом, но первый требует, чтобы вы (пере) написали функцию правдоподобия, чтобы интегрировать специфичные для пациента параметры.

Бен Гудрич
источник

Очень информативный Бен. Большое спасибо, что нашли время, чтобы ответить подробно. Чтобы ответить на ваш вопрос о сфере применения, я имею в виду новых пациентов. У меня остался общий философский вопрос, который я добавил в конец оригинального вопроса.

Фрэнк Харрелл

Я склонен думать о таких проверках как об отражающих аспектах наших предыдущих убеждений, которые мы не встроили или не могли встроить в предыдущие дистрибутивы, которые мы использовали. Например, в принципе, вы должны указывать совместный предыдущий PDF по всем параметрам, но почти всегда есть много предположений, что это не зависит от этого, априори не потому, что вы действительно верите, что они независимы, а просто потому, что указание структура многомерной зависимости очень сложна. Многовариантные функции, такие как предсказания, могут помочь вам после факта определить, были ли входные данные разумными.

Бен Гудрич

Это имеет огромный смысл и очень проницательно. Я все еще остаюсь с небольшим затруднением относительно оценки точности прогнозирования для «экстремальных» субъектов, то есть тех, которые имеют очень низкие или очень высокие прогнозируемые значения. [И для Байеса, который предсказал значения. Это те субъекты со смещенным задним распределением или те, у кого заднее / низкое среднее значение?]

Фрэнк Харрелл,

Еще одна мысль на этот счет: кажется, что во многих ситуациях у практикующих есть довольно последовательные и не противоречивые мнения о знаменателе правила Байеса. Например, если у кого-то есть тот или иной рак, каково его распределение времени выживания без каких-либо условий? Но сложнее и спорнее определить числитель Байесовского правила, чтобы, если вы интегрируете все параметры, у вас остался тот, который, как вы считаете, знаменателем. Прогнозирующая проверка (как предшествующая, так и задняя) является своего рода способом выравнивания числителя со знаменателем правила Байеса.

Бен Гудрич

Переоснащение означает, что модель хорошо работает на тренировочном наборе, но плохо работает на тестовом наборе. ИМХО, это происходит из двух источников: данные и модель, которую мы используем (или наша субъективность).

$k$

В результате, если мы часты, то источником переоснащения является MLE. Если мы байесовские, то это происходит из (субъективного) выбора предшествующего распределения (и, конечно, выбора вероятности)). Таким образом, даже если вы используете апостериорное распределение / среднее значение / медиана, вы уже переоснащены с самого начала, и это переоснащение продолжается. Правильный выбор предварительного распределения и вероятности поможет, но они все еще являются моделями, и вы никогда не сможете полностью избежать переобучения.

SiXUlm
источник

Игнорируя вероятность данных, которая является общей для частых и байесовских подходов, идея, что переоснащение происходит из выбора предшествующего, является проницательной. Это означает, что нет никакого способа проверить на переоснащение, потому что нет никакого способа и нет необходимости проверять предшествующее, если мы сделали все наши предварительные данные, думая о предшествующем заранее. Но, тем не менее, я остаюсь с ощущением, что экстремальные прогнозы покажут переобучение (регрессия к среднему значению). Предыдущее касается параметров, а не крайностей в данных.

Фрэнк Харрелл