В настоящее время я пытаюсь найти подходящую модель для сложных данных подсчета (зависимая переменная). Я пробовал различные модели (модели смешанных эффектов необходимы для моего вида данных), такие как lmer
и lme4
(с лог-преобразованием), а также обобщенные линейные модели смешанных эффектов с различными семействами, такими как гауссовский или отрицательный бином.
Тем не менее, я совершенно не уверен, как правильно диагностировать получающиеся припадки. Я нашел много разных мнений на эту тему в Интернете. Я думаю, что диагностика по линейной (смешанной) регрессии довольно проста. Вы можете пойти дальше и проанализировать остатки (нормальность), а также изучить гетероскедастичность, построив график подгоночных значений по сравнению с остатками.
Тем не менее, как вы делаете это правильно для обобщенной версии? Давайте пока сосредоточимся на отрицательной биномиальной (смешанной) регрессии. Я видел довольно противоположные заявления относительно остатков здесь:
При проверке невязок на нормальность в обобщенных линейных моделях в первом ответе указывается, что обычные невязки обычно не распределяются для GLM; Я думаю, что это понятно. Однако затем указывается, что остатки Пирсона и отклонения также не должны быть нормальными. Тем не менее, второй ответ гласит, что остатки отклонения должны быть нормально распределены (в сочетании со ссылкой).
То, что остатки отклонений должны быть нормально распределены, намекается в документации для ? Glm.diag.plots (из
boot
пакета R ).В этом сообщении в блоге автор впервые изучил нормальность того, что я предполагаю, является остатками Пирсона для регрессионной модели смешанных эффектов NB. Как и ожидалось (по моему честному мнению), остатки не показались нормальными, и автор предположил, что эта модель плохо подходит. Однако, как указано в комментариях, остатки должны быть распределены в соответствии с отрицательным биномиальным распределением. На мой взгляд, это ближе всего к истине, поскольку остатки GLM могут иметь другие распределения, чем нормальные. Это верно? Как проверить наличие таких вещей, как гетероскедастичность?
Последний пункт (построение графиков остатков по отношению к квантилям предполагаемого распределения) подчеркивается в Ben & Yohai (2004) . В настоящее время, кажется, это путь для меня.
В двух словах: Как правильно изучить соответствие моделей обобщенной линейной (смешанной) регрессионной модели, особенно с упором на остатки?
glm.diag.plots
говорит , что это из-за остаточного отклонения от натянутого ножа (я подозреваю, что различие важно). Кроме того, я собираю, у вас есть данные подсчета ; Вы можете сосредоточиться на этом факте. Например, предполагается, что отсчеты (в некотором смысле) гетероскедастичны. Диагностические графики для регрессии подсчета должны быть полезны для вас (хотя это не относится к аспекту смешанных эффектов).Ответы:
Этот ответ основан не на моих знаниях, а скорее на том, что Bolker et al. (2009) написал в влиятельной статье в журнале Trends in Ecology and Evolution . Поскольку статья не является открытым доступом (хотя поиск ее в Google ученый может оказаться успешным, я подумал, что приведу важные отрывки, которые могут быть полезны для решения части вопросов. Итак, опять же, это не то, что я придумал сам, но я думаю, он представляет собой лучшую сжатую информацию о GLMM (включая диагностику) в очень прямолинейном и простом для понимания стиле письма. Если каким-либо образом этот ответ не подходит по какой-либо причине, я просто удалю его. Вещи, которые я нахожу полезно в отношении вопросов, касающихся диагностики, выделены вполужирный .
Страница 127:
Страница 129, вставка 1:
Страница 133, вставка 4:
Графики остатков следует использовать для оценки избыточной дисперсии, а преобразованные отклонения должны быть однородными по категориям. Нигде в статье не упоминалось, что остатки должны быть нормально распределены.
Я думаю, что причина, почему существуют противоречивые утверждения, отражает то, что GLMMs (стр. 127-128) ...
И вот несколько полностью проработанных примеров использования GLMM, включая диагностику.
Я понимаю, что этот ответ больше похож на комментарий и должен рассматриваться как таковой. Но раздел комментариев не позволяет мне добавить такой длинный комментарий. Кроме того, поскольку я считаю, что этот документ представляет ценность для этого обсуждения (но, к сожалению, за окном окупаемости), я подумал, что было бы полезно процитировать здесь важные отрывки.
Цитируемые статьи:
[15] - Г.П. Куинн, М.Дж. Ке (2002): экспериментальный дизайн и анализ данных для биологов, издательство Кембриджского университета.
[16] - MJ Crawley (2002): Статистические вычисления: введение в анализ данных с использованием S-PLUS, John Wiley & Sons.
[28] - JC Pinheiro, DM Bates (2000): модели со смешанными эффектами в S и S-PLUS, Springer.
[49] - Ф. Вайда, С. Бланчард (2005): Условная информация Акаике для моделей со смешанными эффектами. Биометрика, 92, с. 351–370.
[50] - А. Гельман, Дж. Хилл (2006): анализ данных с использованием регрессионных и многоуровневых / иерархических моделей, издательство Кембриджского университета.
[64] - Н.Дж. Готелли, А.М. Эллисон (2004): учебник по экологической статистике, Sinauer Associates.
[65] - Ф.Дж. Харрелл (2001): Стратегии регрессионного моделирования, Springer.
[66] - Дж. К. Линдси (1997): Применение обобщенных линейных моделей, Springer.
[67] - W. Venables, BD Ripley (2002): Современная прикладная статистика с S, Springer.
источник
Это старый вопрос, но я подумал, что было бы полезно добавить, что вариант 4, предложенный OP, теперь доступен в пакете DHARMa R (доступном от CRAN, см. Здесь ).
Пакет делает визуальные остаточные проверки, предложенные принятым ответом, намного более надежными / легкими.
Из описания пакета:
источник