Я немного озадачен преимуществами смешанных моделей в отношении прогнозного моделирования. Поскольку прогнозирующие модели обычно предназначены для прогнозирования значений ранее неизвестных наблюдений, для меня кажется очевидным, что единственная возможность, с которой смешанная модель может быть полезной, заключается в ее способности предоставлять прогнозы на уровне популяции (то есть без добавления каких-либо случайных эффектов). Однако проблема заключается в том, что до сих пор в моем опыте прогнозы на уровне популяции, основанные на смешанных моделях, были значительно хуже, чем прогнозы, основанные на стандартных регрессионных моделях только с фиксированными эффектами.
Так в чем же смысл смешанных моделей в отношении проблем прогнозирования?
РЕДАКТИРОВАТЬ. Проблема заключается в следующем: я установил смешанную модель (с фиксированными и случайными эффектами) и стандартную линейную модель только с фиксированными эффектами. Когда я делаю перекрестную проверку, я получаю следующую иерархию точности прогнозирования: 1) смешанные модели при прогнозировании с использованием фиксированных и случайных эффектов (но это работает, конечно, только для наблюдений с известными уровнями переменных случайных эффектов, поэтому этот прогнозный подход, похоже, не быть подходящим для реальных предсказательных заявлений!); 2) стандартная линейная модель; 3) смешанная модель при использовании прогнозов на уровне популяции (например, с выбрасыванием случайных эффектов). Таким образом, единственная разница между стандартной линейной моделью и смешанной моделью заключается в несколько различном значении коэффициентов из-за разных методов оценки (то есть в обеих моделях одинаковые эффекты / предикторы, но они имеют разные связанные коэффициенты).
Таким образом, моя путаница сводится к вопросу, зачем мне когда-либо использовать смешанную модель в качестве прогнозирующей модели, поскольку использование смешанной модели для генерации прогнозов на уровне населения, похоже, является худшей стратегией по сравнению со стандартной линейной моделью.
Ответы:
Это зависит от характера данных, но в целом я ожидаю, что смешанная модель превзойдет модели с фиксированным эффектом.
Давайте рассмотрим пример: моделирование взаимосвязи между солнечным светом и высотой стеблей пшеницы. У нас есть ряд измерений отдельных стеблей, но многие из стеблей измеряются в одних и тех же местах (которые похожи в почве, воде и других вещах, которые могут повлиять на высоту). Вот несколько возможных моделей:
1) высота ~ солнечный свет
2) высота ~ солнечный свет + сайт
3) высота ~ солнечный свет + (1 | сайт)
Мы хотим использовать эти модели для прогнозирования высоты новых стеблей пшеницы, учитывая некоторую оценку солнечного света, который они испытают. Я собираюсь проигнорировать штраф за параметр, который вы заплатили бы за наличие множества сайтов в модели только с фиксированными эффектами, и просто рассмотреть относительную прогностическую силу моделей.
Наиболее актуальный вопрос здесь заключается в том, являются ли эти новые данные, которые вы пытаетесь предсказать, с одного из измеренных вами сайтов; Вы говорите, что это редко в реальном мире, но это случается.
А) Новые данные с сайта, который вы измерили
Если это так, модели № 2 и № 3 будут превосходить № 1. Они оба используют более релевантную информацию (средний эффект сайта), чтобы делать прогнозы.
Б) Новые данные с неизмеренного сайта
Я все еще ожидал бы, что модель # 3 превзойдет # 1 и # 2, по следующим причинам.
(i) Модель № 3 против № 1:
Модель № 1 будет давать оценки, которые смещены в пользу перепредставленных сайтов. Если у вас одинаковое количество баллов на каждом сайте и достаточно репрезентативная выборка сайтов, вы должны получить схожие результаты на обоих сайтах.
(ii) Модель № 3 против № 2:
Почему модель № 3 будет лучше этой модели № 2 в этом случае? Поскольку случайные эффекты используют преимущество сжатия - эффекты сайта будут «уменьшены» до нуля. Другими словами, вы будете стремиться найти менее экстремальные значения для эффектов сайта, когда он указан как случайный эффект, чем когда он указан как фиксированный эффект. Это полезно и улучшает ваши способности к прогнозированию, когда можно считать, что совокупность означает, что она взята из нормального распределения (см. «Парадокс Штейна в статистике» ). Если от совокупности средств не ожидается, что они будут следовать нормальному распределению, это может быть проблемой, но обычно это очень разумное предположение, и метод устойчив к небольшим отклонениям.
[Примечание: по умолчанию при подгонке модели № 2 большинство программ используют один из сайтов в качестве эталона и оценивают коэффициенты для других сайтов, которые представляют их отклонение от эталона. Таким образом, может показаться, что нет способа рассчитать общий «эффект населения». Но вы можете рассчитать это путем усреднения по прогнозам для всех отдельных сайтов или, проще, изменив кодировку модели так, чтобы коэффициенты рассчитывались для каждого сайта.]
источник
Вслед за превосходным ответом mkt: Исходя из моего личного опыта, разработка прогностических моделей в области медицинского страхования, включение случайных эффектов в прогностические модели (включая модели машинного обучения) имеет ряд преимуществ.
Меня часто просят построить модели, прогнозирующие будущие исходы претензий (например, будущие расходы на здравоохранение, продолжительность пребывания и т. Д.) На основе исторических данных о претензиях отдельных лиц. Часто на человека приходится несколько претензий с соответствующими результатами. Игнорирование того факта, что многие претензии разделяются одним и тем же пациентом, приведет к выбросу ценной информации в прогностическую модель.
Одним из решений будет создание переменных индикатора фиксированного эффекта для каждого элемента в наборе данных и использование штрафованной регрессии для сокращения каждого из фиксированных эффектов на уровне элемента в отдельности. Однако, если в ваших данных присутствуют тысячи или миллионы членов, более эффективное решение как с вычислительной, так и с прогностической точек зрения может состоять в представлении нескольких фиксированных эффектов на уровне элемента в виде одного члена случайного эффекта с нормальным распределением.
источник