Когда я должен * не * позволять фиксированному эффекту изменяться в зависимости от уровня случайного эффекта в модели смешанных эффектов?

16

Учитывая прогнозируемую переменную (P), случайный эффект (R) и фиксированный эффект (F), можно использовать две модели смешанных эффектов ( синтаксис lme4 ):

m1 = lmer( P ~ (1|R) + F )
m2 = lmer( P ~ (1+F|R) + F)

Насколько я понимаю, вторая модель - это та, которая позволяет фиксированному эффекту варьироваться в зависимости от уровня случайного эффекта.

В своих исследованиях я обычно использую модели смешанных эффектов для анализа данных экспериментов, проведенных с несколькими участниками. Я моделирую участника как случайный эффект, а экспериментальные манипуляции - как фиксированные эффекты. Я думаю, что имеет смысл априори разрешать степень, в которой фиксированные эффекты влияют на производительность в эксперименте, у разных участников. Однако мне трудно представить себе обстоятельства, при которых я не должен позволять фиксированным эффектам изменяться в зависимости от уровня случайного эффекта, поэтому мой вопрос:

Когда следует один не допускать фиксированный эффект изменять по уровням случайного эффекта?

Майк Лоуренс
источник
Я до сих пор не полностью понимаю синтаксис lme4, поэтому мне любопытно увидеть ответ. Но у меня есть предчувствие, что это связано со следующим различием: P - это количество времени, которое ученик тратит на выполнение домашней работы, R - это лечение на уровне класса, а F - студент. (Мы также должны иметь случайный эффект для самого класса.) Если все учащиеся подвергаются всем видам лечения R в разное время, уровни F сравнимы между классами. Если мы измеряем всю школу за раз, у нас в каждом классе разные ученики, поэтому уровни F в разных классах не имеют ничего общего друг с другом.
Томас Левин

Ответы:

11

Я не эксперт в моделировании смешанных эффектов, но на этот вопрос гораздо легче ответить, если он перефразирован в контексте моделирования иерархической регрессии. Таким образом, наши наблюдения имеют два индекса и F i j с индексом i, представляющим класс, и j членами класса. Иерархические модели позволяют нам соответствовать линейной регрессии, где коэффициенты варьируются по классам:PijFijij

Yij=β0i+β1iFij

Это наш первый уровень регрессии. Регрессия второго уровня производится по первым коэффициентам регрессии:

β0i=γ00+u0iβ1i=γ01+u1i

когда мы подставляем это в регрессии первого уровня, мы получаем

Yij=(γ0+u0i)+(γ01+u1i)Fij=γ0+u0i+u1iFij+γ01Fij

Здесь - фиксированные эффекты, а u - случайные эффекты. Смешанные модельные оценки γ и дисперсии u .γuγu

Модель, которую я записал, соответствует lmerсинтаксису

P ~ (1+F|R) + F

Теперь, если мы положим без случайного члена, мы получимβ1i=γ01

Yij=γ0+u0i+γ01Fij

который соответствует lmerсинтаксису

P ~ (1|R) + F

Таким образом, теперь возникает вопрос, когда мы можем исключить ошибочный член из регрессии второго уровня? Канонический ответ заключается в том, что когда мы уверены, что регрессоры (здесь у нас их нет, но мы можем включить их, они, естественно, являются постоянными внутри классов), в регрессии второго уровня полностью объясняется дисперсия коэффициентов по классам.

Fiju1i

Примечание . Я только дал алгебраическое объяснение, но я думаю, что, имея это в виду, гораздо проще думать о конкретном прикладном примере.

mpiktas
источник
Yij=β0i+β1iFij+eij
да, но я для ясности опустил это, я думаю.
mpiktas
10

Вы можете думать о «фиксированном эффекте» как о «случайном эффекте» с компонентом дисперсии, равным нулю.

Таким образом, простой ответ на вопрос, почему вы не позволите фиксированному эффекту изменяться, является недостаточным доказательством «достаточно большого» компонента дисперсии. Доказательства должны исходить как из предварительной информации, так и из данных. Это соответствует основному принципу «бритвы оккама»: не делайте вашу модель более сложной, чем она должна быть.

Я склонен думать о линейных смешанных моделях следующим образом, выписать множественную регрессию следующим образом:

Y=Xβ+Zu+e

XβZueuN(0,D(θ))θeN(0,σ2I)(Zu+e)N(0,ZD(θ)ZT+σ2I)

YN(Xβ,ZD(θ)ZT+σ2I)

Z=0

YN(Xβ,σ2I)

Таким образом, «случайная» часть модели может рассматриваться как способ определения предварительной информации о корреляционной структуре компонента шума или ошибки в модели. OLS в основном предполагает, что любая ошибка из фиксированной части модели в одном случае бесполезна для прогнозирования любой другой ошибки, даже если мы точно знаем фиксированную часть модели. Добавление случайного эффекта означает, что вы считаете, что некоторые ошибки могут быть полезны при прогнозировании других ошибок.

probabilityislogic
источник
5

Это довольно старый вопрос с некоторыми очень хорошими ответами, однако я думаю, что может быть полезным новый ответ для более прагматичной перспективы.

Когда не следует позволять фиксированному эффекту изменяться в зависимости от уровня случайного эффекта?

Я не буду касаться вопросов, уже описанных в других ответах, вместо этого я буду ссылаться на уже ставшую известной, хотя я бы скорее сказал «печально известную» статью Барра и др. (2013), которую часто называют «Держите ее максимальной».

Barr, DJ, Levy, R., Scheepers, C. and Tily, HJ, 2013. Структура случайных эффектов для проверки подтверждающих гипотез: сохраняйте ее максимальной. Журнал памяти и языка, 68 (3), с.255-278.

В этой статье авторы утверждают, что все фиксированные эффекты должны варьироваться в зависимости от уровней группирующих факторов (случайные перехваты). Их аргумент довольно убедителен - в основном, что, не позволяя им варьироваться, это накладывает ограничения на модель. Это хорошо описано в других ответах. Тем не менее, есть потенциально серьезные проблемы с этим подходом, которые описаны Bates el al (2015):

Бейтс Д., Клигл Р., Васишт С. и Баайен Х., 2015. Экономные смешанные модели. Препринт arXiv arXiv: 1506.04967

Здесь стоит отметить, что Бейтс является основным автором lme4пакета для подгонки смешанных моделей в R, который, вероятно, является наиболее широко используемым пакетом для таких моделей. Бейтс и др. Отмечают, что во многих реальных приложениях данные просто не поддерживают структуру с максимальными случайными эффектами, часто из-за недостаточного количества наблюдений в каждом кластере для соответствующих переменных. Это может проявиться в моделях, которые не сходятся или являются сингулярными по случайным эффектам. Об этом свидетельствует большое количество вопросов на этом сайте о таких моделях. Они также отмечают, что Барр и др. Использовали относительно простую симуляцию, в которой в качестве основы для их работы использовались случайные эффекты с "хорошим поведением". Вместо этого Бейтс и др. Предлагают следующий подход:

Мы предложили (1) использовать PCA для определения размерности дисперсионно-ковариационной матрицы структуры со случайным эффектом, (2) для первоначального ограничения параметров корреляции до нуля, особенно когда первоначальная попытка подобрать максимальную модель не сходится, и (3) исключить незначительные компоненты дисперсии и связанные с ними параметры корреляции из модели

В той же статье они также отмечают:

Важно отметить, что сближение не происходит из-за дефектов алгоритма оценки, а является прямым следствием попытки подбора модели, которая слишком сложна, чтобы быть должным образом подтвержденной данными.

И:

максимальные модели не нужны для защиты от антиконсервативных выводов. Эта защита полностью обеспечивается комплексными моделями, которые руководствуются реалистическими ожиданиями относительно сложности, которую могут поддерживать данные. В статистике, как и в других областях науки, скупость - это добродетель, а не порок.

Бейтс и др. (2015)

С более прикладной точки зрения, следует дополнительно рассмотреть вопрос о том, должен ли процесс генерирования данных, биологическая / физическая / химическая теория, лежащая в основе данных, направлять аналитика к определению структуры случайных эффектов.

Роберт Лонг
источник
«часто, потому что в каждом кластере недостаточно наблюдений», можете ли вы это уточнить? Я думал, минимально необходимое количество на кластер составляет 1? Это даже ваш принятый ответ здесь: stats.stackexchange.com/questions/388937/…
LuckyPal
@LuckyPal вопрос, на который вы ссылаетесь, касается случайных перехватов, этот вопрос касается случайных уклонов. Как бы вы оценили наклон для выборки размером 1?
Роберт Лонг
Дело принято. Благодарность! +1 Но мы можем оценить фиксированный уклон только с одним наблюдением на кластер, если кластеров достаточно, верно? Это кажется немного странным. Может быть, когда есть проблемы сходимости со случайным наклоном из-за размера выборки, оценка наклона - будь то случайный или нет - может быть в целом сомнительной?
LuckyPal
@LuckyPal Да, оценка фиксированного наклона для всех кластеров, так что обычно это не проблема. Я согласен, что оценка случайного наклона с небольшими кластерами может привести к проблемам сходимости, но это не должно влиять на оценку фиксированного наклона.
Роберт Лонг