Структура данных
> str(data)
'data.frame': 6138 obs. of 10 variables:
$ RT : int 484 391 422 516 563 531 406 500 516 578 ...
$ ASCORE : num 5.1 4 3.8 2.6 2.7 6.5 4.9 2.9 2.6 7.2 ...
$ HSCORE : num 6 2.1 7.9 1 6.9 8.9 8.2 3.6 1.7 8.6 ...
$ MVMNT : Factor w/ 2 levels "_Withd","Appr": 2 2 1 1 2 1 2 1 1 2 ...
$ STIM : Factor w/ 123 levels " arti"," cele",..: 16 23 82 42 105 4 93 9 34 25 ...
$ DRUG : Factor w/ 2 levels "Inactive","Pharm": 1 1 1 1 1 1 1 1 1 1 ...
$ FULLNSS: Factor w/ 2 levels "Fasted","Fed": 2 2 2 2 2 2 2 2 2 2 ...
$ PATIENT: Factor w/ 25 levels "Subj01","Subj02",..: 1 1 1 1 1 1 1 1 1 1 ...
$ SESSION: Factor w/ 4 levels "Sess1","Sess2",..: 1 1 1 1 1 1 1 1 1 1 ...
$ TRIAL : Factor w/ 6138 levels "T0001","T0002",..: 1 2 3 4 5 6 7 8 9 10 ...
Полная модель кандидата
model.loaded.fit <- lmer(RT ~ ASCORE*HSCORE*MVMNT*DRUG*FULLNSS
+ (1|PATIENT) + (1|SESSION), data, REML = TRUE)
- Время реакции от испытаний группируется в течение сеансов, которые, в свою очередь, группируются внутри пациентов
- Каждое испытание может быть охарактеризовано двумя непрерывными ковариатами ASCORE и HSCORE (в диапазоне от 1 до 9) и реакцией движения (отмена или приближение)
- Сессии характеризуются приемом лекарств (плацебо или активный фармакон) и насыщением (голоданием или до кормления)
Моделирование и R Синтаксис?
Я пытаюсь указать подходящую полную модель с загруженной средней структурой, которую можно использовать в качестве отправной точки в стратегии выбора модели сверху вниз.
Конкретные вопросы:
- Правильно ли указан синтаксис кластеризации и случайных эффектов?
- Помимо синтаксиса, подходит ли эта модель для вышеуказанного внутри-предметного дизайна?
- Должна ли полная модель определять все взаимодействия фиксированных эффектов или только те, которые меня действительно интересуют?
- Я не включил в модель фактор STIM, который характеризует конкретный тип стимула, используемый в испытании, но который мне не интересно оценивать каким-либо образом - должен ли я указать это как случайный фактор, учитывая, что он имеет 123 уровня и очень мало точки данных на тип стимула?
Ответы:
Я отвечу на каждый ваш запрос по очереди.
Правильно ли указан синтаксис кластеризации и случайных эффектов?
Модель, которую вы подходите здесь, в математическом смысле, модель
где
Как отмечено на стр. 14-15, здесь эта модель подходит для указания того, что сеансы вложены в отдельных лиц, что имеет место в вашем описании.
Помимо синтаксиса, подходит ли эта модель для вышеуказанного внутри-предметного дизайна?
Я думаю, что эта модель является разумной, поскольку она уважает структуру вложения в данных, и я думаю, что индивидуум и сеанс разумно рассматриваются как случайные эффекты, как утверждает эта модель. Вы должны посмотреть на отношения между предикторами и ответом с точками рассеяния и т. Д., Чтобы убедиться, что линейный предиктор ( ) указан правильно. Возможно, следует также изучить другие стандартные регрессионные методы диагностики.Xijkβ
Должна ли полная модель определять все взаимодействия фиксированных эффектов или только те, которые меня действительно интересуют?
Я думаю, что начинать с такой сильно насыщенной модели может не быть хорошей идеей, если она не имеет смысла по существу. Как я сказал в комментарии, это будет иметь тенденцию превышать ваш конкретный набор данных и может сделать ваши результаты менее обобщенными. Что касается выбора модели, если вы начинаете с полностью насыщенной модели и делаете выбор в обратном направлении (на что некоторые люди на этом сайте, по уважительной причине возражают ), то вы должны убедиться в соблюдении иерархии в модели. То есть, если вы исключите взаимодействие более низкого уровня из модели, то вам также следует удалить все взаимодействия более высокого уровня, связанные с этой переменной. Для получения дополнительной информации об этом см. Связанную ветку.
Я не включил в модель фактор STIM, который характеризует конкретный тип стимула, используемый в испытании, но который мне не интересно оценивать каким-либо образом - должен ли я указать это как случайный фактор, учитывая, что он имеет 123 уровня и очень мало точки данных на тип стимула?
По общему признанию, ничего не зная о приложении (так что возьмите это с крошкой соли), это звучит как фиксированный эффект, а не случайный эффект. То есть тип лечения звучит как переменная, которая соответствует фиксированному сдвигу среднего отклика, а не как нечто, вызывающее корреляцию между субъектами с одинаковым типом стимула. Но тот факт, что это 123-уровневый фактор, затрудняет вход в модель. Полагаю, я бы хотел знать, какого эффекта вы ожидаете от этого. Независимо от размера эффекта, он не будет вызывать смещения в ваших оценках наклона, поскольку это линейная модель, но ее исключение может сделать ваши стандартные ошибки больше, чем они были бы в противном случае.
источник