Добавление случайного эффекта влияет на оценки коэффициентов

10

Меня всегда учили, что случайные эффекты влияют только на дисперсию (ошибку), а фиксированные эффекты влияют только на среднее значение. Но я нашел пример, где случайные эффекты влияют и на среднее значение - оценку коэффициента:

require(nlme)
set.seed(128)
n <- 100
k <- 5
cat <- as.factor(rep(1:k, each = n))
cat_i <- 1:k # intercept per kategorie
x <- rep(1:n, k)
sigma <- 0.2
alpha <- 0.001
y <- cat_i[cat] + alpha * x + rnorm(n*k, 0, sigma)
plot(x, y)

# simulate missing data
y[c(1:(n/2), (n*k-n/2):(n*k))] <- NA

m1 <- lm(y ~ x)
summary(m1)

m2 <- lm(y ~ cat + x)
summary(m2)

m3 <- lme(y ~ x, random = ~ 1|cat, na.action = na.omit)
summary(m3)

Вы можете видеть, что оценочный коэффициент для xмодели m1равен -0,013780, а для модели m3он равен 0,0011713 - оба существенно отличаются от нуля.

Обратите внимание, что при удалении линии, имитирующей отсутствующие данные, результаты совпадают (это полная матрица).

Это почему?

PS: пожалуйста, обратите внимание, что я не профессиональный статистик, поэтому, если вы собираетесь дать много математики, пожалуйста, сделайте также несколько простых резюме для чайников :-)

любознательный
источник
Я думаю, что вы хотите сказать "от модели m3это 0,0011713" вместо m2.
usεr11852
Я сожалею @ user11852, да, вы правы, спасибо. (Кстати, поскольку m2это также верно (что является предметом другого вопроса ).
Любопытно

Ответы:

11

«Меня всегда учили, что случайные эффекты влияют только на дисперсию (ошибку), а фиксированные эффекты влияют только на среднее».

Как вы обнаружили, это верно только для сбалансированных, полных (то есть без отсутствующих данных) наборов данных без непрерывных предикторов. Другими словами, для видов данных / моделей, обсуждаемых в классических текстах ANOVA. В этих идеальных условиях фиксированные и случайные эффекты могут оцениваться независимо друг от друга.

Когда эти условия не выполняются (поскольку они очень часто не выполняются в «реальном мире»), фиксированные и случайные эффекты не являются независимыми. Интересно отметить, что именно поэтому «современные» смешанные модели оцениваются с использованием итерационных методов оптимизации, а не точно решаются с помощью немного матричной алгебры, как в классическом смешанном случае ANOVA: чтобы оценить фиксированные эффекты, мы должны знать случайные эффекты, но чтобы оценить случайные эффекты, мы должны знать фиксированные эффекты! Более актуально для настоящего вопроса, это также означает, что когда данные несбалансированы / неполны и / или в модели есть непрерывные предикторы, то корректировка структуры случайных эффектов смешанной модели может изменить оценки фиксированной части модели. , и наоборот.

Редактировать 2016-07-05. Из комментариев: « Не могли бы вы уточнить или предоставить цитату, почему непрерывные предикторы будут влиять на оценки фиксированной части модели? »

Оценки для фиксированной части модели будут зависеть от оценок для случайной части модели, то есть от оцененных компонентов дисперсии, если (но не только, если) дисперсия предикторов различна для разных кластеров. Что почти наверняка будет верно, если какой-либо из предикторов будет непрерывным (по крайней мере, в данных «реального мира» - теоретически это может быть неверным, например, в построенном наборе данных).

Джейк Уэстфолл
источник
Не могли бы вы уточнить или привести цитату о том, почему непрерывные предикторы будут влиять на оценки фиксированной части модели?
robin.datadrivers
@ robin.datadrivers Хорошо, я немного добавил об этом
Джейк Уэстфолл,
3

На первом уровне, я думаю, все, что вы игнорируете сокращение к ценностям населения; « уклоны и перехваты на объекте из модели смешанных эффектов ближе к оценкам совокупности, чем оценки наименьших квадратов внутри объекта ». 1]. Следующая ссылка, вероятно, также будет полезна ( Каковы надлежащие описания для моих смешанных моделей? ), См. Ответ Майка Лоуренса).

Кроме того, я думаю, что вам немного не повезло в вашем примере с игрушкой, потому что у вас идеально сбалансированный дизайн, который дает вам точно такую ​​же оценку в случае отсутствия пропущенных значений.

Попробуйте следующий код, который имеет тот же процесс без пропущенных значений:

 cat <- as.factor(sample(1:5, n*k, replace=T) ) #This should be a bit unbalanced.
 cat_i <- 1:k # intercept per kategorie
 x <- rep(1:n, k)
 sigma <- 0.2
 alpha <- 0.001
 y <- cat_i[cat] + alpha * x + rnorm(n*k, 0, sigma) 

 m1 <- lm(y ~ x)  
 m3 <- lme(y ~ x, random = ~ 1|cat, na.action = na.omit) 

 round(digits= 7,fixef(m3)) ==  round(digits=7, coef(m1)) #Not this time lad.
 #(Intercept)           x 
 #      FALSE       FALSE 

Где сейчас, потому что ваш дизайн не идеально сбалансирован, у вас нет одинаковых оценок коэффициентов.

На самом деле, если вы будете глупо играть вместе со своим шаблоном недостающих значений (например, :), y[ c(1:10, 100 + 1:10, 200 + 1:10, 300 + 1:10, 400 +1:10)] <- NAчтобы ваш дизайн все еще был идеально сбалансирован, вы снова получите те же коэффициенты.

 require(nlme)
 set.seed(128)
 n <- 100
 k <- 5
 cat <- as.factor(rep(1:k, each = n))
 cat_i <- 1:k # intercept per kategorie
 x <- rep(1:n, k)
 sigma <- 0.2
 alpha <- 0.001
 y <- cat_i[cat] + alpha * x + rnorm(n*k, 0, sigma)
 plot(x, y)

 # simulate missing data in a perfectly balanced way
 y[ c(1:10, 100 + 1:10, 200 + 1:10, 300 + 1:10, 400 +1:10)] <- NA

 m1 <- lm(y ~ x)  
 m3 <- lme(y ~ x, random = ~ 1|cat, na.action = na.omit) 

 round(digits=7,fixef(m3)) ==  round(digits=7, coef(m1)) #Look what happend now...
 #(Intercept)           x 
 #       TRUE        TRUE 

Вы слегка ошибаетесь идеальным дизайном вашего оригинального эксперимента. Когда вы вставили NA в несбалансированном виде, вы изменили схему того, сколько «силы» могут заимствовать отдельные предметы друг у друга.

Короче говоря, различия, которые вы видите, связаны с эффектами сжатия и, более конкретно, потому что вы исказили свой оригинальный идеально сбалансированный дизайн с не идеально сбалансированными пропущенными значениями.

Ссылка 1: Дуглас Бейтс lme4: Моделирование смешанных эффектов с помощью R , стр. 71-72

usεr11852
источник