Модель смешанного эффекта с переменной выборки

Я пытаюсь указать формулу для линейной модели смешанного эффекта (с lme4) для моего экспериментального дизайна, но я не уверен, что я делаю это правильно.

Дизайн: в основном я измеряю параметр отклика на растениях. У меня 4 уровня лечения и 2 уровня орошения. Растения сгруппированы в 16 участков, в пределах каждого участка я отбираю 4 участка. В каждом подзадаче я беру от 15 до 30 наблюдений (в зависимости от количества найденных растений). То есть всего 1500 строк.

введите описание изображения здесь

Первоначально уровень подплота был здесь только для целей выборки, но я подумал, что хотел бы принять это во внимание в модели (как переменная 64-уровня), потому что я видел, что существует большой разброс от одного подзаговора к другому даже внутри одного графика (больше, чем изменчивость между целыми графиками).

Моей первой идеей было написать:

library(lme4)
fit <- lmer(y ~ treatment*irrigation + (1|subplot/plot), data=mydata)

или же

fit <- lmer(y ~ treatment*irrigation + (1|subplot) + (1|plot), data=mydata)

Это верно? Я не уверен, должен ли я сохранить оба уровня заговора / подзаговора в моей формуле. Нет фиксированного эффекта, но случайные эффекты очень значительны.

r experiment-design mixed-model agenis
источник

Ваша модель должна быть написана как

fit <- lmer(y ~ treatment*irrigation + (1|plot/subplot), data=mydata)

как вложенные участки вложены в сайт. хотя (1|plot)+ (1|subplot)будет работать, если подзаговоры будут однозначно помечены (т. е. 1A, 1B, 1C, ..., 2A, 2B, 2C, а не A, B, C ..., A, B, C). Моя книга из книги Fox et al. Экологическая статистика описывает пример вложенности:

С другой стороны, в примере с тиками каждый цыпленок встречается только в одном выводке, а каждый выводок встречается только в одном сайте: спецификация модели (1 | SITE/BROOD/INDEX)читается как «цыпленок (INDEX), вложенный в выводок, вложенный в сайт», или эквивалентно (1 | SITE) + (1 | SITE:BROOD) + (1 | SITE:BROOD:INDEX). Если выводки и цыплята имеют уникальную маркировку, так что программное обеспечение может обнаружить вложение, (1 | SITE) + (1 | BROOD) + (1 | INDEX)также будет работать (не использовать (1 | SITE) + (1 | SITE/BROOD) + (1 | SITE/BROOD/INDEX); это приведет к избыточным терминам в модели).

Другие мысли:

больше информации о вложенности и спецификациях модели на http://glmm.wikidot.com/faq
Ваши ирригационные процедуры действительно организованы, как показано на схеме выше, то есть не вкраплены? Или это просто для удобства графического представления? Если первое, то у вас есть потенциально проблемный экспериментальный дизайн ...
Поскольку подсюжеты вложены в участки, было бы просто логично выводить (после Murtaugh 2007 Ecology "Простота и сложность в анализе экологических данных" ) взять средства графика и проанализировать данные на уровне участка.
Для чего бы это ни стоило, я думаю, вы могли бы пойти еще дальше и агрегировать до уровня сюжета; тогда вы можете пропустить смешанные модели полностью и просто сделатьlm(y~treatment*irrigation, data=my_aggregated_data)

Бен Болкер
источник

спасибо за вашу помощь (у меня есть 12 часов на ожидание, чтобы разблокировать +50 :( на самом деле у меня были большие сомнения в отношении наименования моих участков (4 или 64 уникальных меток). Рисунок правильный: ирригация не "рандомизирована", это К сожалению, я согласен (они сказали мне: «слишком много, чтобы сделать это по-другому»!). Спасибо за ссылки. Еще один вопрос: я получаю график остатков, который не выглядит хорошо: конусообразный (как это: «<»), ошибка кажется пропорциональным значениям Y. Есть ли способ исправить это в модели такого типа?

agenis

Наиболее очевидное решение (и решение, которое часто устраняет другие проблемы) заключается в преобразовании ответа, чаще всего в преобразование журнала.

Бен Болкер

Модель смешанного эффекта с переменной выборки

Ответы: