Почему трудно учитывать неопределенность в случайных эффектах при прогнозировании по смешанным моделям?

10

В R-sig-ME есть несколько потоков о получении доверительных интервалов для прогнозов с использованием lme4и nlmeв R. Например, здесь и здесь, в 2010 году, включая некоторые комментарии Дугалса Бейтса, одного из авторов обоих пакетов. Я стесняюсь цитировать его дословно, так как боюсь, что их вырвут из контекста, но в любом случае он делает один комментарий:

«Вы комбинируете параметры и случайные переменные в своих прогнозах, и я не уверен, что это будет значить для оценки изменчивости этих прогнозов. Байесовский может быть в состоянии понять это, но я не могу обдумать это». " https://stat.ethz.ch/pipermail/r-sig-mixed-models/2010q1/003447.html

Я знаю, что байесовский пакет glmm MCMCglmmможет давать достоверные интервалы для прогнозов.

В последнее время для разработки lme4на github был предоставлен predictметод, но он сопровождается следующим комментарием:

«@note Нет возможности для вычисления стандартных ошибок прогнозов, потому что сложно определить эффективный метод, который включает неопределенность в параметрах дисперсии; мы рекомендуем \ code {\ link {bootMer}} для этой задачи». https://github.com/lme4/lme4/blob/master/R/predict.R

Итак, почему трудно учесть неопределенность в случайных эффектах при прогнозировании по смешанным моделям в частой обстановке?

П Селлаз
источник

Ответы:

4

Я не уверен насчет комментария метода предсказания, но основная проблема связана с генерацией легко интерпретируемых показателей дисперсии, а не показателей дисперсии как таковых. Бейтс не комментирует в первой цитате, можете ли вы сделать это, просто что это значит.

Возьмите простую многоуровневую модель проектирования двухуровневых повторных измерений. Допустим, у вас есть следующие данные, где каждая строка является предметом:

введите описание изображения здесь

В lmerмодели можно выразить как:

y ~ x + (1|subject)

Вы предсказываете значение y от x как фиксированный эффект (разница между A и B); и перехватить случайный эффект **. Внимательно посмотрите на график и обратите внимание, что, хотя есть эффект изменчивости по x для каждого субъекта (наклон каждой линии), он относительно невелик по сравнению с изменчивостью по субъектам (высота каждой линии).

Модель анализирует эти два набора изменчивости, и каждый из них имеет смысл. Вы можете использовать случайные эффекты, чтобы предсказать высоту линий, и вы можете использовать фиксированные эффекты x, чтобы предсказать наклоны. Вы могли бы даже использовать эти два вместе для работы наших индивидуальных значений y. Но что вы не можете сделать, так это сказать что-то значимое в отношении вашей модели, когда вы комбинируете изменчивость уклонов и высот линий вместе. Вам нужно поговорить об изменчивости ваших уклонов и высот линий отдельно. Это особенность модели, а не ответственность.

У вас будет изменчивость эффекта х, которую относительно легко оценить. Вы могли бы что-то сказать о доверительном интервале вокруг этого. Но обратите внимание, что этот доверительный интервал будет иметь небольшое отношение к предсказанию какого-либо конкретного значения y, потому что на значение y влияет комбинация эффекта и предметной дисперсии, которая отличается от изменчивости одного эффекта.

Когда Бейтс пишет такие вещи, которые вы цитировали, я представляю, что он часто думает о гораздо более сложных многоуровневых проектах, к которым это даже не подходит. Но даже если вы просто рассмотрите этот простой пример, вы задаетесь вопросом, какой реальный смысл можно извлечь из объединения всех мер дисперсии вместе.

** Я проигнорировал фиксированный эффект перехвата для простоты и просто рассматривал его как случайный эффект. Вы можете извлечь аналогичные выводы из еще более простой модели со случайным и фиксированным перехватом, но я думаю, что это будет сложнее передать. В этом случае, опять же, фиксированный эффект и случайный эффект анализируются по причине и означают разные вещи, и объединение их изменчивости для прогнозируемых значений приводит к тому, что эта изменчивость не имеет большого смысла в отношении модели.

Джон
источник
Итак, я слышу, что вы говорите, что это сводится к той же старой мысли о том, что мы не уверены, хотим ли мы рассматривать субъектную дисперсию как ошибку или разделить ее по отдельности и делать вид, что ее не существует? Это правильно?
Russellpierce
Я никогда не слышал эту старую пилу. Я никогда не слышал, чтобы вы притворялись, что предметной дисперсии не существует. Но я полагаю, это связано с этим конкретным примером. Модель разбирает дисперсию. Эта особенность процесса моделирования заключается в том, как вы можете понять модель. Если вы снова рекомбинируете дисперсию, вы в первую очередь побеждаете цель модели. Я не говорю, игнорировать субъектную дисперсию, просто случайный эффект субъекта является отдельным. Возможно, вы захотите прочитать Blouin & Riopelle (2005) и посмотреть, как меняется значение SE, когда вы комбинируете дисперсию.
Джон
Может быть, я что-то упускаю, но это очень похоже на то, что люди, обсуждающие вопрос вперед и назад, имеют представление о том, какой размер эффекта лучше всего использовать для внутрисубъектных / повторных измерений ANOVA, и как лучше построить эти доверительные интервалы ... но я полагаю, что после того, как прочитай то, на что ты указал мне, я не буду скучать по тому, что я скучаю больше. :) Спасибо.
Russellpierce
Как я уже сказал, они связаны. Я не знал, что было взад и вперед, хотел бы увидеть ссылку. Дело в том, что два КИ и эффекта, о которых вы говорите, означают разные вещи. Итак, вы используете тот, который передает то, что вы хотите иметь в виду. И вы должны заставить их казаться разумными. [Трудно утверждать (хотя некоторые имеют), что разумно использовать КИ, включающий предметную дисперсию вокруг среднего значения в проекте повторных измерений, и использовать его, чтобы сказать что-то об эффекте повторных измерений.]
Джон
Я не видел ничего в литературе, только много неофициальных выкручиваний и попыток угадать, что подумает рецензент.
Расселпирс
1

В течение долгого времени я задавался вопросом о, казалось бы, распространенном убеждении, что существует некоторая принципиальная разница в фиксированных и случайных эффектах для (как правило, нелинейных) моделей смешанных эффектов. Это убеждение, например, высказано Бейтсом в следующем ответе

https://stat.ethz.ch/pipermail/r-sig-mixed-models/2010q1/003447.html

Бейтс ясно заявляет, что он считает, что существует фундаментальное различие между фиксированными и случайными эффектами, поэтому их нельзя объединять. Я думаю, что он неправ, и я надеюсь убедить нескольких читателей в альтернативной точке зрения. Я использую частый подход, поэтому я хочу определить понятие вероятности профиля для функции как фиксированных, так и случайных эффектов. Для мотивации обсуждения предположим, что у нас есть двухпараметрическая модель с параметрами x и u (пока что ничего о случайных эффектах нет). Пусть - функция правдоподобия, где мы подавляем любую ссылку на данные. Пусть - любая (хорошая) функция от x и u. Вероятность профиля для функции определяется выражениемg ( x , u ) P g ( t ) gL(x,u)g(x,u)Pg(t)g

Pg(t)=maxx,u{L(x,u) | g(x,u)=t}\eqno(1)

Я считаю, что никто не станет спорить с этим. Теперь предположим, что у нас есть предварительное распределение вероятностей для u. Тогда я бы сказал, что вероятность профиля для все еще имеет смысл, но мы должны изменить (1), включив предыдущее.p(u)g

Pg(t)=maxx,u{L(x,u)p(u) | g(x,u)=t}\eqno(2)
Обратите внимание, что, поскольку является параметром с до этого он точно такой же, как случайный эффект. Так почему же многие думают, что параметры случайных эффектов как-то отличаются. Я думаю, что разница заключается в обычной практике оценки параметров для них. То, что делает случайные эффекты «разными», так это то, что их много во многих моделях. В результате, чтобы получить полезные оценки для фиксированных эффектов (или других параметров), необходимо рассматривать случайные эффекты другим способом. Что мы делаем, так это интегрируем их из модели. В приведенной выше модели мы бы сформировали вероятность где ТеперьuF(x)
F(x)=L(x,u)p(u)du
uпропали. Поэтому, если все, что у нас есть, это то, кажется, нет смысла говорить о вероятности профиля для некоторой функции .F(x)g(x,u)

Поэтому для получения информации о функции не нужно интегрировать по параметру . Но что происходит в случае, когда есть много параметров случайных эффектов. Затем я утверждаю, что мы должны интегрироваться по «большинству», но не по всем из них в некотором смысле, который я уточню. Чтобы мотивировать конструкцию, пусть будет случайных эффектов . Рассмотрим особый случай, когда функция зависит только от и фактически является самой простой из представленных функций, . Интегрируем случайные эффекты чтобы получить g(x,u)unu=(u1,u2,...,un1,un)g(x,u)ung(x,u)=unu1,u2,...,un1

F(x,un)=L(x,u1,...,un)p(u1,...,un))du1du2...dun1\eqno(4)
как и прежде мы можем сформировать профиль вероятности Как обобщить чтобы иметь смысл для произвольной функции . Хорошо заметьте, что определение в такое же, как Чтобы заметить, что для простого случая , совпадает с
Pg(t)=maxx,un{F(x,un)|un=t}\eqno(3)
(3)g(x,u)F(x,un)(4)
F(x,s)=limϵ01ϵ{(x,un)|sϵ/2<g(x,un)<s+ϵ/2}L(x,u1,...,un)p(u1,...,un))du1du2...dun\eqno(5)
g(x,u)=un(5)
F(x,s)=limϵ01ϵ{(x,un)|sϵ/2<un<s+ϵ/2}F(x,un)dun\eqno(6)

Для общей функции мы формируем функцию определенную формулой и вычисляем вероятность профиля g(x,u)F(x,s)(5)

Pg(s)=maxx,u{F(x,s)|g(x,u)=s}\eqno(3)

Этот профиль вероятности является четко определенной концепцией и стоит сам по себе. Однако, чтобы быть полезным на практике, нужно уметь вычислять его значение, по крайней мере, приблизительно. Я полагаю, что для многих моделей функция может быть достаточно хорошо аппроксимирована с использованием варианта приближения Лапласа. Определите как Пусть H - гессиан логарифма функции относительно параметров и .F(x,s)x^(s),u^(s)

x^(s),u^(s)=maxx,u{L(x,u)p(u) | g(x,u)=s}
L(x,u)p(u)xu

Множества уровней являются мерными подмногообразиями мерного пространства, где имеется фиксированных эффектов и случайных эффектов. Нам нужно интегрировать форму по этому многообразию, где все линеаризовано в Это включает в себя элементарную дифференциальную геометрию. Предположим, что Повторным параметрированием можно предположить, что и . Тогда рассмотрите карту gm+n1n+mmnndu1du2dunx^(s),u^(s)gxn(x^(s),u^(s))0x^(s)=0u^(s)=0

(x1,x2,,xm1,u1,u2,,un)(x1,x2,,xm1,i=1m1gxixii=1nguiuigxm,u1,u2,,un)
где используется для обозначим частичную производную от относительно оцененную в максимальной точке. Это линейное отображение мерного пространства на касательное пространство множества уровней . Мы можем использовать его для вычисления желаемого интеграла. Сначала откат 1 формы - это просто они сами.gxigxim+n1gdui

Откат гессиана - это квадратичная форма

Ti,j=Hi+m,j+m+guigujgxm2Hm,m\rm for 1<=i,j<=n

Таким образом, интеграл может быть вычислен (или аппроксимирован) через приближение Лапласа, которое является обычной формулой, включающей логарифм определителя , который вычисляется посредством разложения Холецкого. Значение аппроксимации интеграла по Лапласу равно гдеэто определитель. нам все еще нужно иметь дело с шириной набора уровней как Для первого порядка это имеет значение где - вектор частных производных T

L(x^(s),u^(s))|T|12
||gϵ0ϵ/g(x^(s),u^(s))g(x^(s),u^(s)))g (gx1,gx2,,gxm,gu1,gu2,,gun) так что значение вероятности на наборе уровней задано с помощью Это правильное приближение, используемое для расчета вероятности профиля.g
L(x^(s),u^(s))|T|12g(x^(s),u^(s))
Дейв Фурнье
источник