Вопросы об определении линейных смешанных моделей в R для данных повторных измерений с дополнительной структурой вложенности

10

Структура данных

> str(data)
 'data.frame':   6138 obs. of  10 variables:
 $ RT     : int  484 391 422 516 563 531 406 500 516 578 ...
 $ ASCORE : num  5.1 4 3.8 2.6 2.7 6.5 4.9 2.9 2.6 7.2 ...
 $ HSCORE : num  6 2.1 7.9 1 6.9 8.9 8.2 3.6 1.7 8.6 ...
 $ MVMNT  : Factor w/ 2 levels "_Withd","Appr": 2 2 1 1 2 1 2 1 1 2 ...
 $ STIM   : Factor w/ 123 levels " arti"," cele",..: 16 23 82 42 105 4 93 9 34 25 ...
 $ DRUG   : Factor w/ 2 levels "Inactive","Pharm": 1 1 1 1 1 1 1 1 1 1 ...
 $ FULLNSS: Factor w/ 2 levels "Fasted","Fed": 2 2 2 2 2 2 2 2 2 2 ...
 $ PATIENT: Factor w/ 25 levels "Subj01","Subj02",..: 1 1 1 1 1 1 1 1 1 1 ...
 $ SESSION: Factor w/ 4 levels "Sess1","Sess2",..: 1 1 1 1 1 1 1 1 1 1 ...
 $ TRIAL  : Factor w/ 6138 levels "T0001","T0002",..: 1 2 3 4 5 6 7 8 9 10 ...

Полная модель кандидата

model.loaded.fit <- lmer(RT ~ ASCORE*HSCORE*MVMNT*DRUG*FULLNSS
                              + (1|PATIENT) + (1|SESSION), data, REML = TRUE)
  • Время реакции от испытаний группируется в течение сеансов, которые, в свою очередь, группируются внутри пациентов
  • Каждое испытание может быть охарактеризовано двумя непрерывными ковариатами ASCORE и HSCORE (в диапазоне от 1 до 9) и реакцией движения (отмена или приближение)
  • Сессии характеризуются приемом лекарств (плацебо или активный фармакон) и насыщением (голоданием или до кормления)

Моделирование и R Синтаксис?

Я пытаюсь указать подходящую полную модель с загруженной средней структурой, которую можно использовать в качестве отправной точки в стратегии выбора модели сверху вниз.

Конкретные вопросы:

  • Правильно ли указан синтаксис кластеризации и случайных эффектов?
  • Помимо синтаксиса, подходит ли эта модель для вышеуказанного внутри-предметного дизайна?
  • Должна ли полная модель определять все взаимодействия фиксированных эффектов или только те, которые меня действительно интересуют?
  • Я не включил в модель фактор STIM, который характеризует конкретный тип стимула, используемый в испытании, но который мне не интересно оценивать каким-либо образом - должен ли я указать это как случайный фактор, учитывая, что он имеет 123 уровня и очень мало точки данных на тип стимула?
Cel
источник
если я не могу найти совет здесь, я действительно не знаю, кого я могу спросить? Может быть, вы знаете о каких-либо специализированных форумах по смешанным моделям или даже эксперте, который хочет проконсультироваться за небольшие деньги?
Чел
3
Привет @Cel, похоже, у тебя ВСЕ взаимодействия в модели, включая 5-стороннее, 4-стороннее и 3-стороннее взаимодействие. Я не уверен в этом случае, но это, как правило, сильно перевешивает данные, что сделает ваши результаты менее обобщенными. Выбор в обратном направлении (если вы должны его использовать) не обязательно должен начинаться с полностью насыщенной модели - он должен начинаться с самой большой модели, которую вы считаете правдоподобной. Вы можете уменьшить это вообще?
Макрос
@ Макро, приятно знать, я буду включать только те взаимодействия, которые кажутся правдоподобными. у вас есть предложения по другим вопросам? если вы это сделаете, может быть, положить его в качестве ответа, чтобы я мог принять это.
Чел

Ответы:

16

Я отвечу на каждый ваш запрос по очереди.

Правильно ли указан синтаксис кластеризации и случайных эффектов?

Модель, которую вы подходите здесь, в математическом смысле, модель

Yijk=Xijkβ+ηi+θij+εijk

где

  • Yijk - время реакции для наблюдения во время сеанса на индивидууме .kji

  • Xijk - это предикторный вектор для наблюдения во время сеанса на индивидууме (в написанной вами модели это включает все основные эффекты и все взаимодействия).kji

  • ηi является человек случайный эффект , который индуцирует корреляции между наблюдениями , сделанными на одного человека. - случайный эффект для индивидуального сеанса а - остаток оставшейся ошибки.iθijijεijk

  • β - вектор коэффициента регрессии.

Как отмечено на стр. 14-15, здесь эта модель подходит для указания того, что сеансы вложены в отдельных лиц, что имеет место в вашем описании.

Помимо синтаксиса, подходит ли эта модель для вышеуказанного внутри-предметного дизайна?

Я думаю, что эта модель является разумной, поскольку она уважает структуру вложения в данных, и я думаю, что индивидуум и сеанс разумно рассматриваются как случайные эффекты, как утверждает эта модель. Вы должны посмотреть на отношения между предикторами и ответом с точками рассеяния и т. Д., Чтобы убедиться, что линейный предиктор ( ) указан правильно. Возможно, следует также изучить другие стандартные регрессионные методы диагностики.Xijkβ

Должна ли полная модель определять все взаимодействия фиксированных эффектов или только те, которые меня действительно интересуют?

Я думаю, что начинать с такой сильно насыщенной модели может не быть хорошей идеей, если она не имеет смысла по существу. Как я сказал в комментарии, это будет иметь тенденцию превышать ваш конкретный набор данных и может сделать ваши результаты менее обобщенными. Что касается выбора модели, если вы начинаете с полностью насыщенной модели и делаете выбор в обратном направлении (на что некоторые люди на этом сайте, по уважительной причине возражают ), то вы должны убедиться в соблюдении иерархии в модели. То есть, если вы исключите взаимодействие более низкого уровня из модели, то вам также следует удалить все взаимодействия более высокого уровня, связанные с этой переменной. Для получения дополнительной информации об этом см. Связанную ветку.

Я не включил в модель фактор STIM, который характеризует конкретный тип стимула, используемый в испытании, но который мне не интересно оценивать каким-либо образом - должен ли я указать это как случайный фактор, учитывая, что он имеет 123 уровня и очень мало точки данных на тип стимула?

По общему признанию, ничего не зная о приложении (так что возьмите это с крошкой соли), это звучит как фиксированный эффект, а не случайный эффект. То есть тип лечения звучит как переменная, которая соответствует фиксированному сдвигу среднего отклика, а не как нечто, вызывающее корреляцию между субъектами с одинаковым типом стимула. Но тот факт, что это 123-уровневый фактор, затрудняет вход в модель. Полагаю, я бы хотел знать, какого эффекта вы ожидаете от этого. Независимо от размера эффекта, он не будет вызывать смещения в ваших оценках наклона, поскольку это линейная модель, но ее исключение может сделать ваши стандартные ошибки больше, чем они были бы в противном случае.

макрос
источник
2
Ух ты. спасибо Макро, я хотел бы дать больше очков.
Cel
Поскольку случайные эффекты пересекаются, а не случайны, должны ли обозначения быть и (а не ), так как поскольку они пересекаются (а не вложены) с пациентом? ηiθjθj
Джошуа Розенберг