Расчет

13

Я читал о расчете значений в смешанных моделях и после прочтения FAQ по R-sig, других постов на этом форуме (я бы связал несколько, но мне не хватает репутации) и нескольких других ссылок, которые я понимаю, используя Значения в контексте смешанных моделей сложны.R 2R2R2

Однако недавно я наткнулся на эти две статьи ниже. Хотя эти методы выглядят многообещающе (для меня), я не являюсь статистиком, и поэтому мне было интересно, будет ли кто-либо еще иметь представление о методах, которые они предлагают, и о том, как они будут сравниваться с другими методами, которые были предложены.

Накагава, Шиничи и Хольгер Шилзет. «Общий и простой метод получения R2 из обобщенных линейных моделей со смешанными эффектами». Методы в экологии и эволюции 4.2 (2013): 133-142.

Джонсон, Пол CD. «Расширение модели R2GLMM компании Nakagawa & Schielzeth для моделей со случайными уклонами». Методы в экологии и эволюции (2014).

Метод is также может быть реализован с использованием функции r.squaredGLMM в пакете MuMIn, которая дает следующее описание метода.

Для моделей со смешанными эффектами можно разделить на два типа. Маргинальное число представляет дисперсию, объясняемую фиксированными коэффициентами, и определяется как: Условное интерпретируется как дисперсия, объясняемая как постоянными, так и случайными факторами (т. е. всей моделью), и рассчитывается по уравнению: где - дисперсия фиксированных компонентов эффекта, а - сумма всех компонент дисперсии (группы, отдельных и т. д.),R 2R2R2 R2RGLММ(с)2=( σ 2 F +Е( σ 2 л ))

RGLMM(m)2=σf2σf2+(σl2)+σe2+σd2
R2 σ 2 f(σ 2 l )σ 2 l σ 2 d
RGLMM(c)2=(σf2+(σl2))(σf2+(σl2)+σe2+σd2
σf2(σl2)σl2- дисперсия, обусловленная аддитивной дисперсией, а - дисперсия, от распределения. σd2

В своем анализе я смотрю на продольные данные и меня в первую очередь интересует дисперсия, объясняемая фиксированными эффектами в модели

library(MuMIn) 
library(lme4)

fm1 <- lmer(zglobcog ~ age_c + gender_R2 + ibphdtdep + iyeareducc + apoegeno + age_c*apoegeno + (age_c | pathid), data = dat, REML = FALSE, control = lmerControl(optimizer = "Nelder_Mead"))

# Jarret Byrnes (correlation between the fitted and the observed values)
r2.corr.mer <- function(m) {
   lmfit <-  lm(model.response(model.frame(m)) ~ fitted(m))
   summary(lmfit)$r.squared
}

r2.corr.mer(fm1)
[1] 0.8857005

# Xu 2003
1-var(residuals(fm1))/(var(model.response(model.frame(fm1))))
[1] 0.8783479

# Nakagawa & Schielzeth's (2013)
r.squaredGLMM(fm1)
      R2m       R2c 
0.1778225 0.8099395 
Andrews
источник
Я отредактировал ваше сообщение, чтобы использовать форматирование mathjax. Пожалуйста, проверьте еще раз, чтобы я случайно не внес никаких ошибок.
Sycorax сообщает, что восстановит Монику
Насколько я понимаю, в вашем вопросе отсутствует реальный вопрос. Можете ли вы уточнить, что вы хотите? Рекомендация, что использовать?
Хенрик
Привет @Henrik, меня интересовала рекомендация о том, что использовать, да, но также и в более широком смысле, как разные методы сравниваются друг с другом и каковы различия.
Эндрюс
Я считаю, что исходные и приведенные выше уравнения неверны. Это не связано с изменениями @ user777. Два слагаемых справа должны быть в знаменателе. Смотрите это .
Сирил
Вероятно, эта ошибка была вызвана тем, что в документации пакета MuMIn отсутствуют закрывающие скобки .
Сирил

Ответы:

11

Я отвечаю, вставив ответ Дугласа Бейтса в список рассылки R-Sig-ME 17 декабря 2014 года по вопросу о том, как рассчитать статистику для обобщенных линейных смешанных моделей, которую, я считаю, необходимо прочитать всем, кто интересуется такая вещь. Бейтс является оригинальным автором пакета для R и соавтором , а также соавтором известной книги о смешанных моделях , и CV получит пользу от наличия текста в ответе, а не просто от ссылки на Это.R2lme4nlme

Я должен признать, что немного нервничал, когда люди говорят о «R2 для GLMM». R2 для линейной модели четко определен и обладает многими желательными свойствами. Для других моделей можно определить разные величины, отражающие некоторые, но не все эти свойства. Но это не вычисление R2 в смысле получения числа, обладающего всеми свойствами, которыми обладает R2 для линейных моделей. Обычно существует несколько различных способов определения такой величины. Особенно для GLM и GLMM, прежде чем вы сможете определить «пропорцию объясненной дисперсии», вам сначала нужно определить, что вы подразумеваете под «дисперсией ответа».

Путаница в том, что представляет собой R2 или степени свободы любых других величин, связанных с линейными моделями, применительно к другим моделям возникает из-за смешения формулы с понятием. Хотя формулы получены из моделей, деривация часто включает в себя довольно сложную математику. Чтобы избежать потенциально запутанного деривации и просто «перейти к погоне», проще представить формулы. Но формула не является концепцией. Обобщение формулы не эквивалентно обобщению концепции. И эти формулы практически никогда не используются на практике, особенно для обобщенных линейных моделей, анализа дисперсии и случайных эффектов. У меня есть «мета-теорема», согласно которой единственная величина, фактически рассчитанная по формулам, приведенным во вводных текстах, - это выборочное среднее.

Может показаться, что я ворчливый старик из-за этого, а может, и так, но опасность состоит в том, что люди ожидают, что «R2-подобное» количество будет иметь все свойства R2 для линейных моделей. Не может Невозможно обобщить все свойства для гораздо более сложной модели, такой как GLMM.

Однажды я был в комитете, который рассматривал кандидатскую диссертацию. Кандидатура. Было предложено изучить 9 различных формул, которые можно было бы рассмотреть как способы вычисления R2 для нелинейной регрессионной модели, чтобы определить, какая из них «лучшая». Конечно, это можно сделать с помощью имитационного исследования, в котором используется только пара разных моделей и только несколько разных наборов значений параметров для каждой. Мое предположение, что это совершенно бессмысленное упражнение, не было встречено тепло.

Роберт Лонг
источник
10

После просмотра литературы я наткнулся на следующую статью, в которой сравниваются несколько различных методов вычисления значений для смешанных моделей, где методы (MVP) эквивалентны методу, предложенному Накагавой и Шилзетом.R 2R2R2

  • Lahuis, D и др. (2014) Объяснил дисперсионные меры для многоуровневых моделей. Организационные методы исследования.

введите описание изображения здесь

В целом, большинство показателей (Формула, Формула, (OLS) и (MVP)) показали приемлемые уровни смещения, согласованности и эффективности во всех условиях и моделях. Кроме того, разница в средних значениях смещения для этих мер была небольшой. Формула и Формула были наименее предвзятыми в моделях случайного пересечения, а Формула и (MVP) были наименее предвзятыми в моделях со случайным наклоном. С точки зрения эффективности, Формула и (MVP) имели самые низкие значения стандартного отклонения в модели случайного пересечения. (MVP) и (OLS) имели самые низкие стандартные отклонения в модели со случайным наклоном. В общем, Формула не была эффективной оценщиком.R 2 R 2 R 2 R 2 R 2R2R2R2R2R2R2

Andrews
источник