Нотация для многоуровневого моделирования

10

Формула, которую нужно указать для обучения многоуровневой модели (используя lmerиз lme4 Rбиблиотеки), всегда меня заводит. Я прочитал бесчисленные учебники и учебные пособия, но никогда не понимал это правильно.

Итак, вот пример из этого урока, который я хотел бы видеть сформулированным в уравнении. Мы пытаемся смоделировать частоту голоса как функцию пола (у женщин более высокий голос, чем у мужчин в целом) и отношение человека (независимо от того, отвечал он / она вежливо или неформально) в различных сценариях. Также, как видно из subjectколонки, каждый человек несколько раз подвергался измерениям.

> head(politeness, n=20)
   subject gender scenario attitude frequency
1       F1      F        1      pol     213.3
2       F1      F        1      inf     204.5
3       F1      F        2      pol     285.1
4       F1      F        2      inf     259.7
5       F1      F        3      pol     203.9
6       F1      F        3      inf     286.9
7       F1      F        4      pol     250.8
8       F1      F        4      inf     276.8
9       F1      F        5      pol     231.9
10      F1      F        5      inf     252.4
11      F1      F        6      pol     181.2
12      F1      F        6      inf     230.7
13      F1      F        7      inf     216.5
14      F1      F        7      pol     154.8
15      F3      F        1      pol     229.7
16      F3      F        1      inf     237.3
17      F3      F        2      pol     236.8
18      F3      F        2      inf     251.0
19      F3      F        3      pol     267.0
20      F3      F        3      inf     266.0

subject, genderИ attitudeявляются факторами (с informalи femaleрассматриваться в качестве базовых уровней для attitudeи genderв уравнениях ниже). Теперь одна идея состоит в том, чтобы обучить модель с различными перехватами для каждого subjectи scenario:

politeness.model=lmer(frequency ~ attitude + gender + 
 (1|subject) + (1|scenario), data=politeness)

Если мое понимание обозначений верно, это соответствует:

pol i + γ male iyi=aj[i]1+ak[i]2+β attitudepoli+γ gendermalei

где обозначает точку данных , обозначает уровень группы для, а обозначает уровень группы для точки . и являются двоичными показателями.i t h j [ i ] k [ i ] i t h pol мужчинаiithj[i]subjectk[i]scenarioithattitudepolgendermale

Чтобы ввести случайные наклоны для ориентации, мы можем написать:

politeness.model = lmer(frequency ~ attitude + gender + 
 (1+attitude|subject) + (1+attitude|scenario), data=politeness)

Опять же, если мое понимание ясно, это соответствует:

pol i + γ male iyi=aj[i]1+ak[i]2+(βj[i]1+βk[i]2) attitudepoli+γ gendermalei

Теперь, какому уравнению соответствует следующая Rкоманда?

politeness.null = lmer(frequency ~ gender +
 (1+attitude|subject) +  (1+attitude|scenario), data=politeness)
abhinavkulkarni
источник
1
не очень разумный; средний уклон населения по отношению к отношению принимается равным нулю ...
Бен Болкер
@BenBolker: Эй, не могли бы вы написать это в форме уравнения? Верны ли мои предыдущие уравнения? В последней модели я все еще вижу attitudeкондиционирование subjectи scenario.
Абхинавкулькарни

Ответы:

12

Я бы написал

~ attitude + gender + (1|subject) + (1|scenario)

в виде

yiβ0+β1I(attitude=pol)+β2I(gender=male)+b1,j[i]+b2,k[i]+ϵib1N(0,σ12)b2N(0,σ22)ϵN(0,σr2)
где обозначает коэффициент с фиксированным эффектом, обозначает случайную величину, - это индикаторная функция (это в основном то же самое, что вы сказали выше, только немного отличающиеся обозначения).βbI
~ attitude + gender + (1+attitude|subject) + (1+attitude|scenario)

добавляет вариацию между субъектами в ответ на attitudeи scenario(мы могли бы эквивалентно записать часть случайных эффектов как (attitude|subject) + (attitude|scenario), то есть оставить неявное перехватывание; это вопрос вкуса). Сейчас же

yiβ0+β1I(attitude=pol)+β2I(gender=male)+b1,j[i]+b3,j[i]I(attitude=pol)+b2,k[i]+b4,k[i]I(attitude=pol)+ϵi{b1,b3}MVN(0,Σ1){b2,b4}MVN(0,Σ2)ϵN(0,σr2)
где и являются неструктурированными матрицами дисперсии-ковариации, т.е. они симметричны и положительны (полу) определенный, но не имеет других ограничений: и аналогично для .Σ1Σ2
Σ1=(σ12σ13σ13σ32)
Σ2

Возможно, будет сгруппировать термины следующим образом: Таким образом, вы можете увидеть, какие случайные эффекты влияют на перехват, а какие влияют на реакцию на отношение.

yi(β0+b1,j[i]+b2,k[i])+(β1+b3,j[i]+b4,k[i])I(attitude=pol)+β2I(gender=male)+ϵi

Теперь, если вы пропустите attitudeчлен с фиксированным эффектом (т.е. установите или термин из формулы), вы увидите (не переписывая все), что, поскольку предполагается, что случайные эффекты имеют нулевое среднее значение, мы будем Предполагая, что средний ответ на отношение по предметам и сценариям будет точно нулевым, в то время как среди предметов и сценариев все еще есть различия. Я не скажу, что это никогда не имеет смысла со статистической точки зрения, но это редко случается. Время от времени обсуждается этот вопрос в списке рассылки r-sig-mixed-models@r-project.org ... (или это может обсуждаться где-то на StackExchange - в противном случае это будет хорошим следствием задний вопрос ...)β1=0attitude

Бен Болкер
источник