Почему модели со смешанными эффектами разрешают зависимость?

14

Скажем, нас интересует, как на экзаменационные оценки учеников влияет количество часов, которые они изучают. Чтобы исследовать это соотношение, мы могли бы запустить следующую линейную регрессию:

exam.gradesi=a+β1×hours.studiedi+ei

Но если мы выбираем учеников из нескольких разных школ, мы можем ожидать, что ученики в одной и той же школе будут больше похожи друг на друга, чем ученики из разных школ. Чтобы справиться с этой проблемой зависимости, совет во многих учебниках / в Интернете - запускать смешанные эффекты и поступать в школу как случайный эффект. Таким образом, модель будет : exam.grades i = a + β 1 × hours.stueded i + school j + e i Но почему это решает проблему зависимости, которая присутствовала в линейной регрессии?

exam.gradesi=a+β1×hours.studiedi+schoolj+ei

Пожалуйста, ответьте, как будто вы разговариваете с 12-летним

Лучиано
источник
«Решает» ли это проблему зависимости, зависит от контекста. Но вы, вероятно, можете видеть, что теперь в расширенной модели есть термин, который может, по крайней мере частично, учитывать эффект, связанный с конкретной школой.
image_doctor

Ответы:

23

0 , когда школа различна.

Ys,i=α+hourss,iβ+schools+es,i
sischoolsN(0,τ)es,iN(0,σ2),

[α+hourss,iβ]s,i
которое определяется количеством отработанных часов.

Ys,iYs,i0ss , что означает, что отклонение оценок от ожидаемых значений является независимым, когда учащиеся не находятся в одной школе.

Ys,iYs,iτiiYs,iτ+σ2 : оценки учеников из одной и той же школы будут иметь соответствующие отклонения от ожидаемых значений. ,

Пример и смоделированные данные

σ2=τ=1

set.seed(1)
school        <- rep(1:5, each=10)
school_effect <- rnorm(5)

school_effect_by_ind <- rep(school_effect, each=10)
individual_effect    <- rnorm(50)

schools+es,i

plot(individual_effect + school_effect_by_ind, col=school, pch=19, 
     xlab="student", ylab="grades departure from expected value")
segments(seq(1,length=5,by=10), school_effect, seq(10,length=5,by=10), col=1:5, lty=3)

смешанная модель

schoolsα+hoursβ , оценка, определяемая временем, потраченным на работу. В результате ученики в одной школе больше похожи друг на друга, чем ученики из разных школ, как вы указали в своем вопросе.

Матрица дисперсии для этого примера

schoolses,i

[A00000A00000A00000A00000A]
10×10A
A=[2111111111121111111111211111111112111111111121111111111211111111112111111111121111111111211111111112].
Элвис
источник
1
Элвис: это, вероятно, отличный ответ для людей, более разбирающихся в статистике, чем я. Однако я могу извлечь из этого немного смысла. Не могли бы вы отредактировать свой ответ таким образом, чтобы 12-летний ребенок мог его понять?
Лучано
1
А ... 12 лет ?! Вот это да! Я добавлю некоторые симуляции, если это может помочь.
Элвис
5
Выполнено. Надеюсь это поможет. Если нет, пожалуйста, уточните, что вы не получите. Заметьте, что 12-летний человек тоже не поймет вопрос ... вы не можете попросить ответ проще, чем вопрос.
Элвис