Большое расхождение в оценке наклона, когда группы рассматриваются как случайные и фиксированные в смешанной модели

18

Я понимаю, что мы используем модели случайных эффектов (или смешанных эффектов), когда считаем, что некоторые параметры модели изменяются случайным образом в зависимости от некоторого фактора группировки. У меня есть желание подогнать модель, в которой ответ был нормализован и центрирован (не идеально, но довольно близко) по группирующему фактору, но независимая переменная xникак не была скорректирована. Это привело меня к следующему тесту (с использованием сфабрикованных данных), чтобы убедиться, что я найду эффект, который искал, если он действительно был там. Я запустил одну модель смешанных эффектов со случайным перехватом (для групп, определенных f) и вторую модель с фиксированным эффектом с фактором f в качестве предиктора с фиксированным эффектом. Я использовал пакет R lmerдля модели со смешанным эффектом и базовую функциюlm()для модели с фиксированным эффектом. Ниже приведены данные и результаты.

Обратите внимание, что y, независимо от группы, она колеблется около 0. И это xзависит от yгруппы внутри, но значительно различается в разных группах, чемy

> data
      y   x f
1  -0.5   2 1
2   0.0   3 1
3   0.5   4 1
4  -0.6  -4 2
5   0.0  -3 2
6   0.6  -2 2
7  -0.2  13 3
8   0.1  14 3
9   0.4  15 3
10 -0.5 -15 4
11 -0.1 -14 4
12  0.4 -13 4

Если вы заинтересованы в работе с данными, вот dput()вывод:

data<-structure(list(y = c(-0.5, 0, 0.5, -0.6, 0, 0.6, -0.2, 0.1, 0.4, 
-0.5, -0.1, 0.4), x = c(2, 3, 4, -4, -3, -2, 13, 14, 15, -15, 
-14, -13), f = structure(c(1L, 1L, 1L, 2L, 2L, 2L, 3L, 3L, 3L, 
4L, 4L, 4L), .Label = c("1", "2", "3", "4"), class = "factor")), 
.Names = c("y","x","f"), row.names = c(NA, -12L), class = "data.frame")

Подгонка модели смешанных эффектов:

> summary(lmer(y~ x + (1|f),data=data))
Linear mixed model fit by REML 
Formula: y ~ x + (1 | f) 
   Data: data 
   AIC   BIC logLik deviance REMLdev
 28.59 30.53  -10.3       11   20.59
Random effects:
 Groups   Name        Variance Std.Dev.
 f        (Intercept) 0.00000  0.00000 
 Residual             0.17567  0.41913 
Number of obs: 12, groups: f, 4

Fixed effects:
            Estimate Std. Error t value
(Intercept) 0.008333   0.120992   0.069
x           0.008643   0.011912   0.726

Correlation of Fixed Effects:
  (Intr)
x 0.000 

Я отмечаю, что компонент дисперсии перехвата оценивается в 0 и, что важно для меня, xне является значимым предиктором y.

Далее я подгоняю модель с фиксированным эффектом fв качестве предиктора вместо коэффициента группирования для случайного пересечения:

> summary(lm(y~ x + f,data=data))

Call:
lm(formula = y ~ x + f, data = data)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.16250 -0.03438  0.00000  0.03125  0.16250 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) -1.38750    0.14099  -9.841 2.38e-05 ***
x            0.46250    0.04128  11.205 1.01e-05 ***
f2           2.77500    0.26538  10.457 1.59e-05 ***
f3          -4.98750    0.46396 -10.750 1.33e-05 ***
f4           7.79583    0.70817  11.008 1.13e-05 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.1168 on 7 degrees of freedom
Multiple R-squared: 0.9484, Adjusted R-squared: 0.9189 
F-statistic: 32.16 on 4 and 7 DF,  p-value: 0.0001348 

Теперь я замечаю, что, как и ожидалось, xявляется значительным предиктором y.

Что я ищу, так это интуиция в отношении этой разницы. В чем мое неправильное мышление? Почему я неправильно ожидаю найти значимый параметр для xобеих этих моделей, а на самом деле вижу его только в модели с фиксированным эффектом?

ndoogan
источник
Просто хочу быстро указать, что что-то не так с настройкой случайных эффектов, учитывая дисперсию RE = 0 (т. Е. / RE не объясняет никаких изменений). Учитывая это, это не удивительно, что xпеременная не является значимой. Я подозреваю, что это тот же результат (коэффициенты и SE), который вы бы запустили lm(y~x,data=data). У меня больше нет времени на диагностику, но я хотел указать на это.
Affine
@ Аффин, это хорошая мысль. Поэтому я полагаю, что мой интерес здесь заключается в том, почему случайный эффект не уловил изменения в перехвате. Если у вас или у кого-то есть комментарии позже, я приветствую это! Благодарю.
ndoogan

Ответы:

31

Здесь происходит несколько вещей. Это интересные вопросы, но для объяснения всего этого потребуется немало времени и пространства.

Прежде всего, все это становится намного проще для понимания, если мы наносим данные на график . Здесь график рассеяния, где точки данных раскрашены по группам. Кроме того, у нас есть отдельная линия регрессии для каждой группы, а также простая линия регрессии (игнорирование групп), выделенная жирным шрифтом:

plot(y ~ x, data=dat, col=f, pch=19)
abline(coef(lm(y ~ x, data=dat)), lwd=3, lty=2)
by(dat, dat$f, function(i) abline(coef(lm(y ~ x, data=i)), col=i$f))

данные

Модель с фиксированным эффектом

ИксИксИксИксИксИксИксYT

ИксИксИксlm()

Смешанная модель

ИксИксИксИкс

Икс

Вот коэффициенты для простой модели регрессии (пунктирная жирная линия на графике):

> lm(y ~ x, data=dat)

Call:
lm(formula = y ~ x, data = dat)

Coefficients:
(Intercept)            x  
   0.008333     0.008643  

Как видите, коэффициенты здесь идентичны тем, которые мы получили в смешанной модели. Это именно то, что мы ожидали найти, поскольку, как вы уже отметили, у нас есть оценка 0 дисперсии для случайных перехватов, что делает ранее упомянутое отношение / внутриклассовая корреляция 0. Таким образом, смешанные модельные оценки в этом случае являются просто простые линейные регрессионные оценки, и, как мы можем видеть на графике, уклон здесь гораздо менее выражен, чем уклоны внутри кластера.

Это подводит нас к одному последнему концептуальному вопросу ...

Почему дисперсия случайных перехватов оценивается как 0?

Ответ на этот вопрос может стать немного техническим и сложным, но я постараюсь сделать его настолько простым и нетехническим, насколько смогу (для нас обоих!). Но, возможно, все еще будет немного скучно.

Y(или, точнее, ошибки модели), вызванные структурой кластеризации. Внутриклассовая корреляция говорит нам, насколько в среднем похожи две ошибки, взятые из одного кластера, относительно среднего сходства двух ошибок, извлеченных из любого места в наборе данных (то есть могут или не могут быть в одном кластере). Положительная внутриклассовая корреляция говорит нам, что ошибки из одного кластера, как правило, относительно более похожи друг на друга; если я получу одну ошибку из кластера, и она имеет высокое значение, то я могу ожидать выше вероятности, что следующая ошибка, которую я получу из того же кластера, также будет иметь высокое значение. Хотя корреляции внутри класса могут быть несколько менее распространенными, они также могут быть отрицательными; две ошибки, взятые из одного и того же кластера, менее похожи (т. е. отличаются друг от друга по значению), чем обычно ожидается по всему набору данных.

Рассматриваемая нами смешанная модель не использует метод внутриклассовой корреляции для представления зависимости в данных. Вместо этого он описывает зависимость в терминах компонентов дисперсии . Это все хорошо, пока внутриклассовая корреляция положительна. В этих случаях внутриклассовая корреляция может быть легко записана в терминах компонентов дисперсии, в частности, как ранее упомянутое отношение случайной дисперсии перехвата к полной дисперсии. (См. Вики-страницу о внутриклассовой корреляциидля получения дополнительной информации об этом.) Но, к сожалению, для моделей с дисперсионными компонентами трудно иметь дело с ситуациями, когда мы имеем отрицательную внутриклассовую корреляцию. В конце концов, написание внутриклассовой корреляции в терминах компонентов дисперсии предполагает запись ее как пропорции дисперсии, и пропорции не могут быть отрицательными.

YYYтогда как ошибки, полученные из разных кластеров, будут иметь тенденцию к более умеренной разнице.) Таким образом, ваша смешанная модель делает то, что на практике часто делают смешанные модели в этом случае: она дает оценки, которые соответствуют отрицательной внутриклассовой корреляции как это можно проверить, но он останавливается на нижней границе 0 (это ограничение обычно программируется в алгоритме подбора модели). Таким образом, мы получаем оценочную случайную дисперсию перехвата 0, которая все еще не очень хорошая оценка, но она настолько близка, насколько мы можем получить с этим типом модели компонентов дисперсии.

Так что мы можем сделать?

Икс

Икс

ИксИксбИксИксвесИкс

> dat <- within(dat, x_b <- tapply(x, f, mean)[paste(f)])
> dat <- within(dat, x_w <- x - x_b)
> dat
      y   x f x_b x_w
1  -0.5   2 1   3  -1
2   0.0   3 1   3   0
3   0.5   4 1   3   1
4  -0.6  -4 2  -3  -1
5   0.0  -3 2  -3   0
6   0.6  -2 2  -3   1
7  -0.2  13 3  14  -1
8   0.1  14 3  14   0
9   0.4  15 3  14   1
10 -0.5 -15 4 -14  -1
11 -0.1 -14 4 -14   0
12  0.4 -13 4 -14   1
> 
> mod <- lmer(y ~ x_b + x_w + (1|f), data=dat)
> mod
Linear mixed model fit by REML 
Formula: y ~ x_b + x_w + (1 | f) 
   Data: dat 
   AIC   BIC logLik deviance REMLdev
 6.547 8.972  1.726   -23.63  -3.453
Random effects:
 Groups   Name        Variance Std.Dev.
 f        (Intercept) 0.000000 0.00000 
 Residual             0.010898 0.10439 
Number of obs: 12, groups: f, 4

Fixed effects:
            Estimate Std. Error t value
(Intercept) 0.008333   0.030135   0.277
x_b         0.005691   0.002977   1.912
x_w         0.462500   0.036908  12.531

Correlation of Fixed Effects:
    (Intr) x_b  
x_b 0.000       
x_w 0.000  0.000

ИксвесИксбYИксИксИксбT-статистический больше. Это также неудивительно, поскольку в этой смешанной модели остаточная дисперсия намного меньше из-за случайных групповых эффектов, поглощающих большую часть дисперсии, с которой столкнулась простая модель регрессии.

Наконец, у нас все еще есть оценка 0 для дисперсии случайных перехватов по причинам, которые я подробно описал в предыдущем разделе. Я не совсем уверен, что все, что мы можем сделать с этим, по крайней мере, не переключаясь на какое-либо другое программное обеспечение lmer(), и я также не уверен, в какой степени это все еще будет отрицательно влиять на наши оценки в этой окончательной смешанной модели. Может быть, другой пользователь может поделиться своими мыслями об этой проблеме.

Ссылки

  • Белл А. и Джонс К. (2014). Объяснение фиксированных эффектов: моделирование случайных эффектов поперечных сечений и панельных данных временных рядов. Политологические исследования и методы. PDF
  • Bafumi, J. & Gelman, AE (2006). Подгонка многоуровневых моделей, когда предикторы и групповые эффекты коррелируют. PDF
Джейк Уэстфолл
источник
1
Это очень вдумчивый и полезный ответ. Я не сталкивался с этими ссылками; их названия кажутся мне обязательными для прочтения на этом этапе моего исследования. Я должен тебе пива!
ndoogan
1
Ссылка на Bell & Jones была отличной. Одна вещь, которую я ждал, и которую вы, возможно, догадываетесь, заключается в том, легко ли распространяются эти разделения между ними на обобщенные линейные смешанные модели. Кажется, что они должны, но я подумал, что понял, что ковариатное центрирование в модели логистической регрессии - это не то же самое, что условная логистическая модель, которую я принимаю за двоичный результат, аналогичный линейной модели с фиксированным эффектом. Любые комментарии?
ndoogan
1
Разве подгонка маргинальной модели не учитывает отрицательную дисперсию, которая lmeпо умолчанию ограничивается> = 0? См. Этот вопрос и его выбранный ответ , т. Е. Подбор сложной корреляции симметрии с помощью glsподгонки или настройки correlation = corCompSymm(form = ~1|f)вlme
FairMiles 10.10-13
1
@FairMiles Возможно ... почему бы вам не попробовать и опубликовать результаты в этой теме комментариев?
Джейк Уэстфолл,
3
Еще раз спасибо, @JakeWestfall. Я читал об этом около 3 раз в течение нескольких месяцев, и каждый раз это помогало разными способами.
ndoogan
3

После долгих размышлений, я считаю, что нашел свой ответ. Я считаю, что эконометрист определил бы мою независимую переменную как эндогенную и, таким образом, коррелировал бы как с независимыми, так и с зависимыми переменными. В этом случае эти переменные опущены или не замечены . Однако я наблюдаю группировки, между которыми пропущенная переменная должна меняться.

Я считаю, что эконометрик предложил бы модель с фиксированным эффектом . То есть модель, которая включает в себя манекен для каждого уровня группировки (или эквивалентную спецификацию, которая обуславливает модель так, что многие манекены для группирования не требуются) в этом случае. С моделью с фиксированным эффектом надежда состоит в том, что все ненаблюдаемые и не зависящие от времени переменные могут контролироваться путем согласования между группами (или между отдельными) вариациями. Действительно, вторая модель в моем вопросе - это модель с фиксированным эффектом, и, как таковая, дает ожидаемую оценку.

Я приветствую комментарии, которые еще больше осветят это обстоятельство.

ndoogan
источник