Написание математического уравнения для многоуровневой модели смешанных эффектов

15

Вопрос CV

Я пытаюсь дать (а) подробное и краткое математическое представление (я) модели смешанных эффектов. Я использую lme4пакет в R. Каково правильное математическое представление для моей модели?


Данные, научный вопрос и код R

Мой набор данных состоит из видов в разных регионах. Я проверяю, изменяется ли распространенность вида во время, ведущее к вымиранию (вымирание не обязательно является постоянным; оно может быть повторно заселено), или после колонизации.

lmer(prevalence ~ time + time:type + (1 + time + type:time | reg) + (1 + time + type:time | reg:spp))

  • Распространенность - это доля страт, занимаемых видом в регионе-году
  • Время - это непрерывная переменная, которая указывает время до исчезновения или колонизации; это всегда позитивно
  • Тип - это категориальная переменная с двумя уровнями. Эти два уровня - «-» и «+». Когда тип - - это колонизация (уровень по умолчанию). Когда тип +, это вымирание.
  • Reg - это категориальная переменная с девятью уровнями, указывающая регион
  • Spp - категориальная переменная; количество уровней варьируется между регионами и варьируется между 48 уровнями и 144 уровнями.

На словах: переменная ответа - распространенность (доля занятых слоев). Фиксированные эффекты включали 1) и перехват, 2) время от события и 3) взаимодействие между временем события и типом события (колонизация или вымирание). Каждый из этих 3 фиксированных эффектов варьировался случайным образом в разных регионах. Внутри региона каждый эффект варьировался случайным образом среди видов.

Я пытаюсь понять, как написать математическое уравнение для модели. Я думаю, что понимаю, что происходит в коде R (хотя, я уверен, у меня есть некоторые пробелы в знаниях, и, надеюсь, выписывание формального математического выражения улучшит мое понимание).

Я немного искал в Интернете и на этих форумах. Конечно, я нашел тонны полезной информации (и, возможно, я добавлю ссылки на некоторые из них в редактировании этого вопроса). Тем не менее, я не мог найти тот «Rosetta Stone» из R-кода, переведенный в математику (мне удобнее с кодом), который действительно помог бы мне подтвердить, что я правильно понял эти уравнения. На самом деле, я знаю, что уже есть некоторые пробелы, но мы вернемся к этому.


Моя попытка

Базовая форма модели смешанных эффектов в матричной записи (на мой взгляд):

Yзнак равноИксβ+Zγ+ε

β

Иксзнак равно[1ΔTΔT+1ΔTNΔT+,N]
Z= [ 1 I ( r 1 ) Δ t I ( r 1 ) Δ t + I ( r 1 ) 1 I ( r 9 ) Δ t I ( r 9 ) Δ t + I ( r 9 )
β'знак равно[β0β1β2]
γ
Zзнак равно[1я(р1)ΔTя(р1)ΔT+я(р1)...1я(р9)ΔTя(р9)ΔT+я(р9)1я(р1,N)ΔTNя(р1,N)ΔT+,Nя(р1,N)...1я(р9,N)ΔTя(р9,N)ΔT+,Nя(р9,N)]
ϵN(0,Σ)
γ'знак равно[γ0,1γ1,1γ2,1...γ0,9γ1,9γ2,9]
ε~N(0,Σ)
  • Δ t Δ t +Икс - матрица дизайна для фиксированных эффектов, - время после колонизации ( ), а - время после исчезновения ( )ΔTtimeΔT+time:type
  • Z - матрица дизайна для случайных эффектов (уровень 1?), I () - функция индикатора, дающая 1, если выборка принадлежит назначенной области, и 0, в противном случае r индексируется, чтобы указать одну из девяти областей.
  • γβ и содержат параметрыγ
  • Еε - это ошибки; Я не совсем уверен, как объяснить , хотя я понимаю, что одна из этих матриц дисперсии / ковариации будет выражать ковариации между наклонами и перехватами, напримерΣ

Предполагая, что все пока что ~ правильно, это означает, что я хорошо на высшем уровне. Однако объяснение видоспецифического изменения параметров, вложенного в каждый регион, поставило меня в тупик еще больше.

Но я взломал что-то, что может иметь смысл ...

Каждый из параметров в получен из линейной комбинации видоспецифичных предикторов и параметров в пределах региона. Для каждого региона есть 3 строки, соответствующие 3 переменным предиктора. Каждая может быть индивидуально выражена какγγγ

  • γп,рзнак равноUп,рбп,р+ηп,р
    • где является расчетной матрицей, специфичной для области а предиктор , является матрицей 1 на S параметров для региона (богатство в области = , например, 48 или 144), и является матрицей ошибокUп,ррпбп,рSηп,р

В частности, для данного региона каждый из будет:γп,р

γ0,рзнак равноU0,рб0,р+η0,р
γ0,рзнак равно[1я(s1)...1я(sS)]+[б0,1б0,S]+η0,р
γ1,рзнак равноU1,рб1,р+η1,р
γ1,рзнак равно[ΔTя(s1)...ΔTя(sS)]+[б1,1б1,S]+η1,р
γ2,рзнак равноU2,рб2,р+η2,р
γ2,рзнак равно[ΔT+я(s1)...ΔT+я(sS)]+[б2,1б2,S]+η2,р

Это будет повторяться для каждого региона. Затем , например . Хотя, возможно, вместо , есть еще одна буква, например , которая обычно используется.η~N(0,Ση)εΣграмм


Редактировать: другие вопросы и ответы, которые были несколько полезны

rbatt
источник
Я сомневаюсь, что эта статья имеет «ответ» на ваш вопрос, но она послужила мне хорошим примером для уравнений модели HMM. Забудьте, что он укоренен в SAS, это просто отличный обзор этого класса моделей. Джудит Сингер, Использование SAS Proc, смешанного для многоуровневых моделей, иерархических моделей и моделей индивидуального роста, JEBS , Winter 1998, vol. 24, № 4, с. 323-355.
Майк Хантер
1
Вы читали раздел 2.3 здесь ?
Роберт Лонг
Я прочитал их, и такие ресурсы позволили мне зайти так далеко. Возможно, мне нужно просто продолжать попытки, но я не смог найти достаточно сложный пример, чтобы дать мне достаточную уверенность в моем нынешнем подходе.
rbatt
Насколько я понимаю, "вложение" - это просто взаимодействие в моделях lmer. Это понятие подкрепляется использованием того же синтаксиса. Поэтому я считаю, что reg: spp может обрабатываться одной категориальной переменной и просто другим набором блоков в Z.
deasmhumnha
Я также предположил бы, что lmer будет избегать идеальной коллинеарности и включит не избыточные взаимодействия в дополнительную переменную.
Деасмумнха

Ответы:

1

Если я правильно понял код, почему бы просто не написать что-то вроде

Yязнак равно(α+νJ[я](α)+ηК[я](α))+(β+νJ[я](β)+ηК[я](β))Tя+(δ+νJ[я](δ)+ηК[я](δ))(Tя*Zя)+εя
с или, если первое уравнение слишком длинное, что-то вроде и
[νJ(α),νJ(β),νJ(δ)]~Multi-Normal(0,Σν)[ηJ(α),ηJ(β),ηJ(δ)]~Multi-Normal(0,Ση)εя~Обычный(0,σε)
Yязнак равноαJ[я],К[я]+βJ[я],К[я]Tя+δJ[я],К[я](Tя*Zя)+εя
αJ[я],К[я]знак равноα+νJ(α)+ηК(α)βJ[я],К[я]знак равноβ+νJ(β)+ηК(β)δJ[я],К[я]знак равноδ+νJ(δ)+ηК(δ)
с той же ковариационной структурой как указано выше? Он показывает вложенную структуру данных, а также то, какие коэффициенты различаются на разных уровнях.

baruuum
источник