Как я могу интерпретировать «корреляции фиксированных эффектов» в моем блеске?

У меня есть следующий вывод:

Generalized linear mixed model fit by the Laplace approximation 
Formula: aph.remain ~ sMFS2 +sAG2 +sSHDI2 +sbare +season +crop +(1|landscape) 

 AIC   BIC    logLik deviance
 4062  4093  -2022   4044

Random effects:
Groups    Name        Variance Std.Dev.
landscape (Intercept) 0.82453  0.90804 
Number of obs: 239, groups: landscape, 45

Fixed effects:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  2.65120    0.14051  18.868   <2e-16     
sMFS2        0.26922    0.17594   1.530   0.1260    
sAG2         0.09268    0.14529   0.638   0.5235    
sSHDI2       0.28345    0.17177   1.650   0.0989  
sbare        0.41388    0.02976  13.907   <2e-16 
seasonlate  -0.50165    0.02729 -18.384   <2e-16 
cropforage   0.79000    0.06724  11.748   <2e-16 
cropsoy      0.76507    0.04920  15.551   <2e-16 

Correlation of Fixed Effects:
           (Intr) sMFS2  sAG2   sSHDI2 sbare  sesnlt crpfrg
sMFS2      -0.016                                          
sAG2        0.006 -0.342                                   
sSHDI2     -0.025  0.588 -0.169                            
sbare      -0.113 -0.002  0.010  0.004                     
seasonlate -0.034  0.005 -0.004  0.001 -0.283              
cropforage -0.161 -0.005  0.012 -0.004  0.791 -0.231       
cropsoy    -0.175 -0.022  0.013  0.013  0.404 -0.164  0.557

Все мои непрерывные переменные (обозначенные маленьким sперед именем переменной) стандартизированы (z-показатели). seasonявляется категориальной переменной с 2 уровнями (ранний и поздний) и cropявляется категориальной переменной с 3 уровнями (кукуруза, корм и соя).

Эта корреляция матрицы фиксированных эффектов действительно смущает меня, потому что все корреляции имеют противоположный знак, который они имеют, когда я смотрю на простые регрессии пар переменных. то есть корреляция матрицы фиксированных эффектов предполагает сильную положительную корреляцию между cropforageи sbare, когда на самом деле существует очень сильная ОТРИЦАТЕЛЬНАЯ корреляция между этими переменными - кормовые культуры, как правило, имеют гораздо меньше голого грунта по сравнению с зерновыми и соевыми культурами. Пары непрерывных переменных имеют одну и ту же проблему, корреляция матрицы фиксированных эффектов говорит о том, что все противоположно тому, что должно быть ... Может ли это быть просто из-за сложности модели (а не простой регрессии)? Может ли это быть связано с тем, что переменные стандартизированы?

Спасибо.

mixed-model poisson-distribution lme4-nlme Сюзи
источник

Ответы:

Результат «корреляции фиксированных эффектов» не имеет интуитивного значения, которое большинство приписывает ему. В частности, речь идет не о соотношении переменных (как отмечает OP). На самом деле речь идет об ожидаемой корреляции коэффициентов регрессии. Хотя это может говорить о мультиколлинеарности, это не обязательно. В этом случае это говорит вам, что если вы снова провели эксперимент, и так получилось, что коэффициент для cropforageстал меньше, то, вероятно, так же будет и коэффициент sbare.

В своей книге «Анализ лингвистических данных: практическое введение в статистику с использованием R», посвященной lme4, Баайен подавляет эту часть вывода и объявляет ее полезной только в особых случаях. Вот сообщение listserv, где сам Бейтс описывает, как интерпретировать эту часть вывода:

Это приблизительная корреляция оценки фиксированных эффектов. (Я включаю слово «приблизительный», потому что должен, но в этом случае приближение очень хорошее.) Я не уверен, как это объяснить лучше, чем это. Предположим, что вы взяли образец MCMC из параметров в модели, тогда вы ожидаете, что образец параметров с фиксированными эффектами отобразит структуру корреляции, подобную этой матрице.

russellpierce
источник

Извините, это, вероятно, глупый вопрос, но тогда почему важно учитывать эту взаимосвязь? Я имею в виду, в каких ситуациях этот результат следует учитывать?

МТАО

@Teresa Это зависит от того, для чего вы его используете. Если вам небезразлична интерпретация, то она говорит о том, насколько смешны два источника эффекта. Если вам небезразличен прогноз, он немного расскажет о том, как могут выглядеть другие модели прогнозирования, и даст вам подсказку о том, как модель может измениться, если вы отбросите предикторы.

russellpierce

Итак, представьте, что у меня есть две переменные в этом выводе, например, с корреляцией 0,90. С точки зрения интерпретации, я полагаю, что я должен отказаться от одного из них, потому что они «запутаны» и, кажется, говорят ту же информацию. Что касается прогноза, если я уроню одну из них, другие модели не должны так сильно меняться, так как они взаимосвязаны, я прав? Или я неправильно это интерпретирую?

МТАО

Вы знаете, я думаю, что вы повторяете то, что я сказал правильно; но, если подумать, я не уверен, что прав. Возможно, вам лучше всего открыть новый вопрос - это поможет вам лучше понять ваш вопрос и повысить вероятность получения правильного ответа.

russellpierce

@russellpierce, спасибо за этот ответ. Один вопрос, однако, я узнал, что мультиколлинеарность возникает, когда предикторы коррелируют друг с другом. Но в своем ответе вы говорите, что корреляция коэффициентов регрессии (а не предикторов) может говорить о мультиколлинеарности. Почему бы просто не сопоставить сами предикторы вместо оценочных коэффициентов?

локус

Если ваши отрицательные и положительные корреляции имеют одинаковое значение и различаются только их знаки, вы ошибочно вводите переменную. Но я не думаю, что это так, потому что вы уже достаточно продвинуты в статистике.

Несоответствие, которое вы испытываете, может быть и, вероятно, вызвано мультиколлинеарностью. Это означает, что когда некоторые независимые переменные имеют некоторые перекрывающиеся эффекты или, другими словами, коррелируют сами. например, моделирование переменных «скорость роста» и «размер опухоли» может вызывать мультиколлинеарность, так как возможно и вероятно, что большие опухоли имеют более высокие скорости роста (до того, как они обнаружены) сами по себе. Это может запутать модель. И если в вашей модели мало независимых переменных, которые связаны друг с другом, интерпретация результатов иногда может оказаться довольно сложной. Иногда это приводит к совершенно странным коэффициентам, даже к таким степеням, что знак некоторых корреляций меняется на противоположный.

Сначала вы должны обнаружить источники мультиколлинеарности и разобраться с ними, а затем повторно запустить анализ.

Vic
источник

-1; вводит в заблуждение. ОП не ввел свои переменные неправильно, и мультиколлинеарность может не быть проблемой. Корреляция между необработанными фиксированными эффектами может говорить об этом, но парадокс Симпсона может позволить этому подходу вести вас в неправильном направлении.

Расселпирс

Почему "вводит в заблуждение"? Какая часть вводила в заблуждение? Я говорил очень четко и избегал делать четкие выводы. То, что я сказал, действительно является одним из признаков мультиколлинеарности и говорит нам, что мы должны также проверять VIF. Но я не понимаю, как вы знаете или уверены, что «ОП неправильно ввел свои переменные, и мультиколлинеарность может не быть проблемой»?

Вик

Кроме того, вы даже не прочитали мой пост полностью (и проголосовали против него, и назвали его вводящим в заблуждение). Если да, то вы видели, что я предложил, чтобы ФП проверил VIF (как официальные индикаторы для multiC), чтобы убедиться, действительно ли эти высокие корреляции указывают на MC или нет? но в любом случае, я открыт для обучения, пока он свободен от высокомерия и личных нападок.

Вик

@Vic: не видел ваши комментарии до сих пор. Я не хотел, чтобы вы рассматривали мой ответ как личную атаку. Я придерживался мнения, что это вводит в заблуждение, и я предоставил то, что считаю правильным ответом выше. Я прочитал ваш пост в полном объеме в то время. Я не знаю, копался ли я в комментариях или нет. Я поддерживаю свое отрицательное мнение.

Расселпирс

... но я допускаю, что я могу ошибаться в этом суждении. Тем не менее, мне казалось, что лучше объяснить, почему я проголосовал, а не просто понизить голос.

Расселпирс

Может быть полезно показать, что эти корреляции между фиксированными эффектами получены путем преобразования vcov модели в матрицу корреляции. Если fitвам подходит модель lme4, то

vc <- vcov(fit)

# diagonal matrix of standard deviations associated with vcov
S <- sqrt(diag(diag(vc), nrow(vc), nrow(vc)))

# convert vc to a correlation matrix
solve(S) %*% vc %*% solve(S)

и корреляции между фиксированными эффектами являются недиагональными элементами.

Эд Меркл
источник