Рассмотрим простую линейную смешанную модель, например, модель случайного перехвата, где мы оцениваем зависимость от у разных субъектов, и предполагаем, что у каждого субъекта есть свой случайный перехват:Здесь перехваты моделируются как поступающие из гауссовского распределения а случайный шум также является гауссовымВ синтаксисе эта модель будет записана как .x y = a + b x + c i + ϵ . c i c i ∼ N ( 0 , τ 2 ) ϵ ∼ N ( 0 , σ 2 ) .yx
y=a+bx+ci+ϵ.
cici∼N(0,τ2)
ϵ∼N(0,σ2).
lme4
y ~ x + (1|subject)
Поучительно переписать вышесказанное следующим образом:
y∣c∼N(a+bx+c,σ2)c∼N(0,τ2)
Это более формальный способ указать ту же вероятностную модель. Из этой формулировки мы можем непосредственно видеть, что случайные эффекты не являются «параметрами»: они являются ненаблюдаемыми случайными величинами. Так как же мы можем оценить параметры дисперсии, не зная значений ? сcic
Обратите внимание, что первое уравнение, приведенное выше, описывает условное распределение учетом . Если мы знаем распределение и , то мы можем определить безусловное распределение , интегрируя по . Вы можете знать это как Закон полной вероятности . Если оба распределения являются гауссовыми, то результирующее безусловное распределение также является гауссовым.yccy∣cyc
В этом случае безусловным распределением является просто , но наши наблюдения не являются образцами из него, поскольку существует несколько измерений на субъект. Чтобы продолжить, нам нужно рассмотреть распределение всего мерного вектора всех наблюдений: где - это блок-диагональная матрица, состоящая из и . Вы просили интуицию, поэтому я хочу избежать математики. Важным моментом является то, что это уравнение не имеетN(a+bx,σ2+τ2)ny
y∼N(a+bx,Σ)
Σ=σ2In+τ2IN⊗1Mσ2τ2cбольше!
Это то, что в действительности соответствует наблюдаемым данным, и поэтому говорят, что не являются параметрами модели.
ci
Когда параметры , , и подходят, можно определить условное распределение для каждого . То, что вы видите на выходе смешанной модели, это режимы этих распределений, или условные режимы.abτ2σ2cii
Вы можете легко оценить параметры дисперсии и ковариации, не полагаясь на случайные эффекты, используя фиксированные эффекты (см. Здесь обсуждение фиксированных эффектов и случайных эффектов; помните о том, что существуют разные определения этих терминов).
Фиксированные эффекты можно легко получить, добавив (двоичную) переменную индикатора для каждой группы (или каждого периода времени или того, что вы планируете использовать в качестве случайных эффектов; это эквивалентно внутреннему преобразованию). Это позволяет легко оценить фиксированные эффекты (которые можно рассматривать как параметр).
Предположение о фиксированных эффектах не требует, чтобы вы делали предположение о распределении фиксированных эффектов, вы можете легко оценить дисперсию фиксированных эффектов (хотя это чрезвычайно шумно, если количество наблюдений в каждой группе мало; они минимизируют смещение за счет гораздо большей дисперсии по сравнению со случайными эффектами, потому что вы теряете одну степень свободы для каждой группы путем добавления этих переменных показателя). Вы также можете оценить ковариации между различными наборами фиксированных эффектов или между фиксированными эффектами и другими ковариатами. Мы сделали это, например, в статье под названием « Конкурентное равновесие и ассортативное соответствие» в немецкой бундеслиге, чтобы оценить, все ли лучше футболисты играют за лучшие команды.
Случайные эффекты требуют предварительного предположения о ковариации. В классических моделях со случайными эффектами вы предполагаете, что случайные эффекты подобны ошибке, и они не зависят от других ковариат (так что вы можете игнорировать их и использовать OLS и получать непротиворечивые, хотя и неэффективные оценки для другого параметра, если предположения модели случайных эффектов справедливо).
Более подробная техническая информация доступна здесь . Эндрю Гельман также проделал много интуитивной работы над этим в своей замечательной книге « Анализ данных с использованием регрессионных и многоуровневых / иерархических моделей».
источник