Меня всегда учили, что случайные эффекты влияют только на дисперсию (ошибку), а фиксированные эффекты влияют только на среднее значение. Но я нашел пример, где случайные эффекты влияют и на среднее значение - оценку коэффициента:
require(nlme)
set.seed(128)
n <- 100
k <- 5
cat <- as.factor(rep(1:k, each = n))
cat_i <- 1:k # intercept per kategorie
x <- rep(1:n, k)
sigma <- 0.2
alpha <- 0.001
y <- cat_i[cat] + alpha * x + rnorm(n*k, 0, sigma)
plot(x, y)
# simulate missing data
y[c(1:(n/2), (n*k-n/2):(n*k))] <- NA
m1 <- lm(y ~ x)
summary(m1)
m2 <- lm(y ~ cat + x)
summary(m2)
m3 <- lme(y ~ x, random = ~ 1|cat, na.action = na.omit)
summary(m3)
Вы можете видеть, что оценочный коэффициент для x
модели m1
равен -0,013780, а для модели m3
он равен 0,0011713 - оба существенно отличаются от нуля.
Обратите внимание, что при удалении линии, имитирующей отсутствующие данные, результаты совпадают (это полная матрица).
Это почему?
PS: пожалуйста, обратите внимание, что я не профессиональный статистик, поэтому, если вы собираетесь дать много математики, пожалуйста, сделайте также несколько простых резюме для чайников :-)
r
mixed-model
random-effects-model
любознательный
источник
источник
m3
это 0,0011713" вместоm2
.m2
это также верно (что является предметом другого вопроса ).Ответы:
«Меня всегда учили, что случайные эффекты влияют только на дисперсию (ошибку), а фиксированные эффекты влияют только на среднее».
Как вы обнаружили, это верно только для сбалансированных, полных (то есть без отсутствующих данных) наборов данных без непрерывных предикторов. Другими словами, для видов данных / моделей, обсуждаемых в классических текстах ANOVA. В этих идеальных условиях фиксированные и случайные эффекты могут оцениваться независимо друг от друга.
Когда эти условия не выполняются (поскольку они очень часто не выполняются в «реальном мире»), фиксированные и случайные эффекты не являются независимыми. Интересно отметить, что именно поэтому «современные» смешанные модели оцениваются с использованием итерационных методов оптимизации, а не точно решаются с помощью немного матричной алгебры, как в классическом смешанном случае ANOVA: чтобы оценить фиксированные эффекты, мы должны знать случайные эффекты, но чтобы оценить случайные эффекты, мы должны знать фиксированные эффекты! Более актуально для настоящего вопроса, это также означает, что когда данные несбалансированы / неполны и / или в модели есть непрерывные предикторы, то корректировка структуры случайных эффектов смешанной модели может изменить оценки фиксированной части модели. , и наоборот.
Редактировать 2016-07-05. Из комментариев: « Не могли бы вы уточнить или предоставить цитату, почему непрерывные предикторы будут влиять на оценки фиксированной части модели? »
Оценки для фиксированной части модели будут зависеть от оценок для случайной части модели, то есть от оцененных компонентов дисперсии, если (но не только, если) дисперсия предикторов различна для разных кластеров. Что почти наверняка будет верно, если какой-либо из предикторов будет непрерывным (по крайней мере, в данных «реального мира» - теоретически это может быть неверным, например, в построенном наборе данных).
источник
На первом уровне, я думаю, все, что вы игнорируете сокращение к ценностям населения; « уклоны и перехваты на объекте из модели смешанных эффектов ближе к оценкам совокупности, чем оценки наименьших квадратов внутри объекта ». 1]. Следующая ссылка, вероятно, также будет полезна ( Каковы надлежащие описания для моих смешанных моделей? ), См. Ответ Майка Лоуренса).
Кроме того, я думаю, что вам немного не повезло в вашем примере с игрушкой, потому что у вас идеально сбалансированный дизайн, который дает вам точно такую же оценку в случае отсутствия пропущенных значений.
Попробуйте следующий код, который имеет тот же процесс без пропущенных значений:
Где сейчас, потому что ваш дизайн не идеально сбалансирован, у вас нет одинаковых оценок коэффициентов.
На самом деле, если вы будете глупо играть вместе со своим шаблоном недостающих значений (например, :),
y[ c(1:10, 100 + 1:10, 200 + 1:10, 300 + 1:10, 400 +1:10)] <- NA
чтобы ваш дизайн все еще был идеально сбалансирован, вы снова получите те же коэффициенты.Вы слегка ошибаетесь идеальным дизайном вашего оригинального эксперимента. Когда вы вставили NA в несбалансированном виде, вы изменили схему того, сколько «силы» могут заимствовать отдельные предметы друг у друга.
Короче говоря, различия, которые вы видите, связаны с эффектами сжатия и, более конкретно, потому что вы исказили свой оригинальный идеально сбалансированный дизайн с не идеально сбалансированными пропущенными значениями.
Ссылка 1: Дуглас Бейтс lme4: Моделирование смешанных эффектов с помощью R , стр. 71-72
источник