Разрешено ли включать время в качестве предиктора в смешанных моделях?

10

Я всегда считал, что время не должно использоваться в качестве предиктора в регрессиях (в том числе в игре), потому что тогда просто «описать» саму тенденцию. Если цель исследования состоит в том, чтобы найти такие параметры окружающей среды, как температура и т. Д., Которые объясняют разницу, скажем, в активности животного, то мне интересно, как время может быть полезным? в качестве прокси для неизмеренных параметров?

Некоторые тенденции во времени по данным о деятельности морских свиней можно увидеть здесь: -> Как обрабатывать пробелы во временных рядах при выполнении GAMM?

Моя проблема: когда я включаю время в мою модель (измеряется в юлианских днях), тогда 90% всех других параметров становятся незначительными (сглаживание ts-усадки от mgcv исключает их). Если я оставлю время, то некоторые из них значимы ...

Вопрос в том, разрешено ли время как предиктор (может быть, даже нужно?) Или это испортило мой анализ?

Спасибо заранее

Jens
источник

Ответы:

12

Время разрешено; будет ли это зависеть от того, что вы пытаетесь смоделировать? Проблема, с которой вы столкнулись, заключается в том, что у вас есть ковариаты, которые в совокупности, по-видимому, соответствуют тренду в данных, что время может делать так же хорошо, но с меньшим количеством степеней свободы - следовательно, они выпадают вместо времени.

Если интерес состоит в том, чтобы смоделировать систему, то взаимосвязь между ответом и ковариатами во времени, а не моделирование изменения ответа во времени, не включает время как ковариату. Если цель состоит в том, чтобы смоделировать изменение среднего уровня ответа, включите Время, но не включайте ковариату. Из того, что вы говорите, может показаться, что вы хотите первое, а не второе, и не должны включать время в вашу модель. (Но учтите дополнительную информацию ниже.)

Есть несколько предостережений, хотя. Чтобы теория сохранялась, остатки должны быть iid (или id, если вы ослабляете допущение независимости, используя корреляционную структуру). Если вы моделируете отклик как функцию ковариат, а они не моделируют адекватно какую-либо тенденцию в данных, то у остатков будет тенденция, которая нарушает допущения теории, если только подобранная корреляционная структура не справится с этой тенденцией.

И наоборот, если вы моделируете тренд только в ответе (включая время), могут быть систематические отклонения в остатках (относительно подобранного тренда), которые не объясняются трендом (временем), и это также может нарушать допущения для остатков. В таких случаях вам может понадобиться включить другие ковариаты для отображения остатков.

Почему это проблема? Хорошо, когда вы тестируете, например, является ли компонент тренда значимым, или значимы ли эффекты ковариат, используемая теория будет предполагать, что остатки являются iid. Если они не iid, то предположения не будут выполнены, и р-значения будут смещены.

Смысл всего этого в том, что вам нужно смоделировать все различные компоненты данных таким образом, чтобы остатки были найдены для используемой вами теории, чтобы проверить, являются ли подобранные компоненты значимыми, чтобы быть действительными.

В качестве примера рассмотрим сезонные данные, и мы хотим подобрать модель, которая описывает долгосрочное изменение данных, тренд. Если мы моделируем только тренд, а не сезонные циклические колебания, мы не можем проверить, является ли подобранный тренд значимым, потому что не будут найдены остатки. Для таких данных нам нужно будет подогнать модель как с сезонным компонентом, так и с трендом. компонент, и нулевая модель, которая содержала только сезонный компонент. Затем мы сравнили бы две модели, используя обобщенный критерий отношения правдоподобия, чтобы оценить значимость подобранного тренда. Это делается с использованием anova()на $lmeкомпонентах двух моделей , оснащенных использование gamm().

Гэвин Симпсон
источник
Уважаемый Гэвин, большое спасибо за ваши очень полезные комментарии. Я надеюсь, что смогу помочь вам и в ближайшее время;) когда я пробую GLRT с anova, он говорит мне, что "объект" исправлен "не найден" :(
Jens
1
@ Дженс, звонок должен быть anova(mod1$lme, mod2$lme). Если вы подбираете негауссову модель, тогда это может не сработать, поскольку в методах PQL нет истинного логарифмического правдоподобия, то есть квази-правдоподобия в названии PQL. Это одна из причин использовать gamm4 , но тогда вам нужно что-то сделать со структурой корреляции, поскольку lme4 не позволяет им.
Гэвин Симпсон