Я не уверен насчет комментария метода предсказания, но основная проблема связана с генерацией легко интерпретируемых показателей дисперсии, а не показателей дисперсии как таковых. Бейтс не комментирует в первой цитате, можете ли вы сделать это, просто что это значит.
Возьмите простую многоуровневую модель проектирования двухуровневых повторных измерений. Допустим, у вас есть следующие данные, где каждая строка является предметом:
В lmer
модели можно выразить как:
y ~ x + (1|subject)
Вы предсказываете значение y от x как фиксированный эффект (разница между A и B); и перехватить случайный эффект **. Внимательно посмотрите на график и обратите внимание, что, хотя есть эффект изменчивости по x для каждого субъекта (наклон каждой линии), он относительно невелик по сравнению с изменчивостью по субъектам (высота каждой линии).
Модель анализирует эти два набора изменчивости, и каждый из них имеет смысл. Вы можете использовать случайные эффекты, чтобы предсказать высоту линий, и вы можете использовать фиксированные эффекты x, чтобы предсказать наклоны. Вы могли бы даже использовать эти два вместе для работы наших индивидуальных значений y. Но что вы не можете сделать, так это сказать что-то значимое в отношении вашей модели, когда вы комбинируете изменчивость уклонов и высот линий вместе. Вам нужно поговорить об изменчивости ваших уклонов и высот линий отдельно. Это особенность модели, а не ответственность.
У вас будет изменчивость эффекта х, которую относительно легко оценить. Вы могли бы что-то сказать о доверительном интервале вокруг этого. Но обратите внимание, что этот доверительный интервал будет иметь небольшое отношение к предсказанию какого-либо конкретного значения y, потому что на значение y влияет комбинация эффекта и предметной дисперсии, которая отличается от изменчивости одного эффекта.
Когда Бейтс пишет такие вещи, которые вы цитировали, я представляю, что он часто думает о гораздо более сложных многоуровневых проектах, к которым это даже не подходит. Но даже если вы просто рассмотрите этот простой пример, вы задаетесь вопросом, какой реальный смысл можно извлечь из объединения всех мер дисперсии вместе.
** Я проигнорировал фиксированный эффект перехвата для простоты и просто рассматривал его как случайный эффект. Вы можете извлечь аналогичные выводы из еще более простой модели со случайным и фиксированным перехватом, но я думаю, что это будет сложнее передать. В этом случае, опять же, фиксированный эффект и случайный эффект анализируются по причине и означают разные вещи, и объединение их изменчивости для прогнозируемых значений приводит к тому, что эта изменчивость не имеет большого смысла в отношении модели.
В течение долгого времени я задавался вопросом о, казалось бы, распространенном убеждении, что существует некоторая принципиальная разница в фиксированных и случайных эффектах для (как правило, нелинейных) моделей смешанных эффектов. Это убеждение, например, высказано Бейтсом в следующем ответе
https://stat.ethz.ch/pipermail/r-sig-mixed-models/2010q1/003447.html
Бейтс ясно заявляет, что он считает, что существует фундаментальное различие между фиксированными и случайными эффектами, поэтому их нельзя объединять. Я думаю, что он неправ, и я надеюсь убедить нескольких читателей в альтернативной точке зрения. Я использую частый подход, поэтому я хочу определить понятие вероятности профиля для функции как фиксированных, так и случайных эффектов. Для мотивации обсуждения предположим, что у нас есть двухпараметрическая модель с параметрами x и u (пока что ничего о случайных эффектах нет). Пусть - функция правдоподобия, где мы подавляем любую ссылку на данные. Пусть - любая (хорошая) функция от x и u. Вероятность профиля для функции определяется выражениемg ( x , u ) P g ( t ) gL(x,u) g(x,u) Pg(t) g
Я считаю, что никто не станет спорить с этим. Теперь предположим, что у нас есть предварительное распределение вероятностей для u. Тогда я бы сказал, что вероятность профиля для все еще имеет смысл, но мы должны изменить (1), включив предыдущее.p(u) g
Поэтому для получения информации о функции не нужно интегрировать по параметру . Но что происходит в случае, когда есть много параметров случайных эффектов. Затем я утверждаю, что мы должны интегрироваться по «большинству», но не по всем из них в некотором смысле, который я уточню. Чтобы мотивировать конструкцию, пусть будет случайных эффектов . Рассмотрим особый случай, когда функция зависит только от и фактически является самой простой из представленных функций, . Интегрируем случайные эффекты чтобы получитьg(x,u) u n u=(u1,u2,...,un−1,un) g(x,u) un g(x,u)=un u1,u2,...,un−1
Для общей функции мы формируем функцию определенную формулой и вычисляем вероятность профиляg(x,u) F(x,s) (5)
Этот профиль вероятности является четко определенной концепцией и стоит сам по себе. Однако, чтобы быть полезным на практике, нужно уметь вычислять его значение, по крайней мере, приблизительно. Я полагаю, что для многих моделей функция может быть достаточно хорошо аппроксимирована с использованием варианта приближения Лапласа. Определите как Пусть H - гессиан логарифма функции относительно параметров и .F(x,s) x^(s),u^(s)
Множества уровней являются мерными подмногообразиями мерного пространства, где имеется фиксированных эффектов и случайных эффектов. Нам нужно интегрировать форму по этому многообразию, где все линеаризовано в Это включает в себя элементарную дифференциальную геометрию. Предположим, что Повторным параметрированием можно предположить, что и . Тогда рассмотрите картуg m+n−1 n+m m n n du1∧du2∧…∧dun x^(s),u^(s) gxn(x^(s),u^(s))≠0 x^(s)=0 u^(s)=0
Откат гессиана - это квадратичная форма
Таким образом, интеграл может быть вычислен (или аппроксимирован) через приближение Лапласа, которое является обычной формулой, включающей логарифм определителя , который вычисляется посредством разложения Холецкого. Значение аппроксимации интеграла по Лапласу равно гдеэто определитель. нам все еще нужно иметь дело с шириной набора уровней как Для первого порядка это имеет значение где - вектор частных производныхT
источник