Я анализирую данные о 300 000 учеников в 175 школах с помощью логистической линейной модели смешанных эффектов (случайные перехваты). Каждый ученик встречается ровно один раз, а данные охватывают 6 лет.
Как разделить разницу между уровнями школы и ученика, аналогично VPC / ICC для непрерывных результатов? Я видел эту статью, в которой предлагаются 4 метода, из которых A и B кажутся мне интересными, но я хотел бы знать, какие преимущества / недостатки могут быть в использовании любого из них, и, конечно, если есть какие-либо другие способы сделать Это.
Как я могу сравнить остаточную дисперсию на уровне школы из года в год (или любой другой период времени)? До сих пор я делал это путем деления данных по годам и запуска модели для каждого года данных, но я думаю, что это некорректно, потому что: i) нет очевидной причины, по которой мне следует делить по годам ; и ii) поскольку оценки фиксированных эффектов различны для каждого года, сравнение случайных эффектов из года в год может не иметь смысла (это просто моя интуиция, было бы здорово, если бы кто-то мог объяснить это более формально, если это правильно).
ПРИМЕЧАНИЕ: я переписал этот вопрос после обсуждения в мета с Whuber и Macro
источник
Ответы:
Пусть обозначает ответ и вектор предиктора (соответственно) учащегося i в школе j .Yя ж, хя ж я J
(1) Для двоичных данных, я думаю, что стандартный способ сделать разложение дисперсии, аналогичное тому, что делается для непрерывных данных, - это то, что авторы называют метод D (я прокомментирую другие методы ниже) в вашей ссылке - представляя двоичные данные как возникающих из базовой непрерывной переменной, которая управляется линейной моделью и разлагает дисперсию по этой скрытой шкале. Причина в том, что логистические модели (и другие GLM) естественным образом возникают таким образом:
Чтобы увидеть это, определите , чтобы оно регулировалось линейной смешанной моделью:Y⋆я ж
где - коэффициенты регрессии,α , β - случайный эффект школьного уровня, а ε i j - остаточный член дисперсии и имеет стандартноелогистическое распределение. Теперь давайηJ∼ N( 0 , σ2) εя ж
пусть теперь y i j = 1 | x i j , η j ) , просто используя логистический CDF, который мы имеемпя ж= P( уя ж= 1 | Икся ж, пJ)
Теперь, принимая логит-преобразование с обеих сторон, у вас есть
которая является именно моделью логистических смешанных эффектов. Таким образом, логистическая модель эквивалентна модели скрытой переменной, указанной выше. Одно важное замечание:
Теперь, если вы используете эту модель, а затем количество
оценивает внутриклассовую корреляцию скрытых скрытых переменных . Еще одно важное замечание:
Что касается других методов, упомянутых в статье, которую вы связали:
(B) Метод моделирования интуитивно привлекателен для статистики, так как он даст вам оценку разложения дисперсии в исходном масштабе данных, но, в зависимости от аудитории, это может (i) быть сложно описать в ваших «методах» раздел и (ii) может отключить рецензента, который искал что-то «более стандартное»
(C) Притворяться, что данные непрерывны, вероятно, не очень хорошая идея, хотя они не будут работать ужасно, если большинство вероятностей не слишком близко к 0 или 1. Но выполнение этого почти наверняка вызовет красный флаг у рецензента. так что я бы держался подальше.
Теперь, наконец,
(2) Если фиксированные эффекты сильно различаются по годам, то вы правы, полагая, что может быть трудно сравнивать случайные отклонения эффектов по годам, поскольку они потенциально имеют разные масштабы (это связано с неидентифицируемостью). упомянутой выше проблемы масштабирования).
это даст вам разные ICC каждый год, но одинаковые фиксированные эффекты. Может быть заманчиво просто использовать случайный наклон во времени, делая ваш линейный предиктор
but I don't recommend this, since that will only allow your associations to increase over time, not decrease.
источник