Вычислить усредненные по модели прогнозы по шкале отклика GLM, которая является «правильной» и почему?
- Вычислить усредненный прогноз по шкале канала и затем преобразовать обратно в шкалу ответов, или
- Обратно преобразовать прогнозы в шкалу ответов, а затем вычислить среднее по модели
Прогнозы близки, но не равны, если модель является GLM. Различные пакеты R предоставляют опции для обоих (с разными значениями по умолчанию). Несколько коллег громогласно утверждали, что № 1 не так, потому что «все делают № 2». Моя интуиция говорит, что № 1 является «правильным», поскольку он сохраняет линейную математику линейной (№ 2 усредняет вещи, которые не находятся в линейном масштабе). Простое моделирование показывает, что # 2 имеет (очень!) Немного меньшую MSE, чем # 1. Если № 2 правильно, в чем причина? И, если № 2 верен, почему моя причина (пусть линейная математика линейная) плохая?
Редактировать 1: Вычисление предельных средних по уровням другого фактора в GLM является проблемой, аналогичной вопросу, который я задаю выше. Рассел Лент вычисляет предельные значения для моделей GLM, используя «сроки» (его слова) из # 1 (в пакете emmeans), и его аргумент похож на мою интуицию.
Редактировать 2: Я использую усреднение модели для обозначения альтернативы выбору модели, где прогноз (или коэффициент) оценивается как средневзвешенное значение по всем или подмножеству «наилучших» вложенных моделей (см. Ссылки и пакеты R ниже) ,
Для заданных вложенных моделей, где - это линейное предсказание (в пространстве ссылок) для отдельного для модели , а - это вес для модели , усредненное по модели предсказание с использованием # 1 выше (среднее по ссылке масштабирование, а затем обратное преобразование в масштаб ответа):η m i i m w m m
и усредненное по модели предсказание с использованием # 2 выше (обратное преобразование всех предсказаний и затем усреднение по шкале отклика):
Некоторые байесовские и частотные методы усреднения моделей:
Hoeting, JA, Madigan, D., Raftery, AE и Volinsky, CT, 1999. Усреднение байесовской модели: учебное пособие. Статистические науки, с.382-401.
Бернхем К.П., Андерсон Д.Р., 2003. Выбор модели и многомодельный вывод: практический теоретико-информационный подход. Springer Science & Business Media.
Хансен Б.Е., 2007. Усреднение модели наименьших квадратов. Econometrica, 75 (4), с.1175-1189.
Claeskens, G. and Hjort, NL, 2008. Выбор модели и усреднение модели. Кембриджские Книги.
Пакеты R включают BMA , MuMIn , BAS и AICcmodavg . (Примечание: это не вопрос мудрости усреднения моделей в более общем плане.)
Ответы:
Оптимальный способ объединения оценок или предикторов зависит от функции потерь, которую вы пытаетесь минимизировать (или от функции полезности, которую вы пытаетесь максимизировать).
Вообще говоря, если функция потерь измеряет ошибки прогнозирования в шкале ответов, то усреднение предикторов в шкале ответов корректно. Если, например, вы стремитесь минимизировать ожидаемую квадратичную ошибку прогнозирования по шкале ответов, то средний предиктор будет оптимальным и, в зависимости от допущений вашей модели, может быть эквивалентен усреднению прогнозов по шкале ответов.
Обратите внимание, что усреднение по линейной шкале предикторов может работать очень плохо для дискретных моделей. Предположим, что вы используете логистическую регрессию для прогнозирования вероятности двоичной переменной ответа. Если какая-либо из моделей дает оценочную вероятность нуля, то линейный предиктор для этой модели будет минус бесконечность. Взятие среднего значения бесконечности с любым числом конечных значений все равно будет бесконечным.
Вы обращались к ссылкам, которые вы перечислили? Я уверен, что Hoeting и др. (1999), например, обсуждают функции потерь, хотя, возможно, не очень подробно.
источник