Проще говоря, как бы вы объяснили (возможно, простыми примерами) разницу между моделями с фиксированным, случайным и смешанным эффектами?
269
Проще говоря, как бы вы объяснили (возможно, простыми примерами) разницу между моделями с фиксированным, случайным и смешанным эффектами?
Ответы:
Статистик Эндрю Гельман говорит, что термины «фиксированный эффект» и «случайный эффект» имеют различные значения в зависимости от того, кто их использует. Возможно, вы сможете выбрать, какое из 5 определений применимо к вашему делу. В целом, может быть лучше поискать уравнения, описывающие вероятностную модель, которую используют авторы (при чтении), или выписать полную вероятностную модель, которую вы хотите использовать (при написании).
источник
(4) “If an effect is assumed to be a realized value of a random variable, it is called a random effect.” (LaMotte, 1983)
Есть хорошие книги на эту тему, такие как Гельман и Хилл . Далее следует краткое изложение их точки зрения.
Прежде всего, вы не должны слишком увлекаться терминологией. В статистике жаргон никогда не должен использоваться вместо математического понимания самих моделей. Это особенно верно для моделей со случайными и смешанными эффектами. «Смешанный» означает, что модель имеет как фиксированные, так и случайные эффекты, поэтому давайте сосредоточимся на разнице между фиксированным и случайным.
Случайные и фиксированные эффекты
Допустим, у вас есть модель с категориальным предиктором, которая делит ваши наблюдения на группы в соответствии со значениями категории. * Коэффициенты модели, или «эффекты», связанные с этим предиктором, могут быть либо фиксированными, либо случайными. Наиболее важное практическое различие между ними заключается в следующем:
Случайные эффекты оцениваются с помощью частичного объединения, а фиксированные - нет.
Частичное объединение означает, что, если у вас мало точек данных в группе, оценка эффекта группы будет частично основана на более обильных данных из других групп. Это может быть хорошим компромиссом между оценкой эффекта путем полного объединения всех групп, которые маскируют изменения на уровне группы, и оценкой эффекта для всех групп совершенно отдельно, что может дать плохие оценки для групп с низкой выборкой.
Случайные эффекты - это просто расширение метода частичного объединения как статистической модели общего назначения. Это обеспечивает принципиальное применение идеи в самых разных ситуациях, включая множественные предикторы, смешанные непрерывные и категориальные переменные и сложные корреляционные структуры. (Но с большой силой приходит большая ответственность: сложность моделирования и умозаключений существенно возрастает, и может привести к тонким предубеждениям , которых необходимо избегать.)
Чтобы мотивировать модель случайных эффектов, спросите себя: зачем вам частичный пул? Возможно, потому что вы думаете, что маленькие подгруппы являются частью какой-то большой группы с общим средним эффектом. Средство подгруппы может немного отличаться от среднего значения большой группы, но не на произвольную величину. Чтобы формализовать эту идею, мы предполагаем, что отклонения следуют распределению, обычно гауссовскому. Вот тут и возникает «случайный» случайный эффект: мы предполагаем, что отклонения подгрупп от родителя следуют распределению случайной величины. Как только вы поймете эту идею, уравнения модели смешанных эффектов будут следовать естественным образом.
К сожалению, пользователи моделей со смешанными эффектами часто имеют ложные представления о том, что такое случайные эффекты и чем они отличаются от фиксированных эффектов. Люди слышат «случайный» и думают, что это означает что-то особенное в моделируемой системе, например, фиксированные эффекты должны использоваться, когда что-то «фиксировано», в то время как случайные эффекты должны использоваться, когда что-то «случайно выбирается». Но нет ничего особенно случайного в предположении, что коэффициенты модели получены из распределения; это просто мягкое ограничение, подобное применяемому к коэффициентам модели в регрессии гребня. Есть много ситуаций, когда вы можете или не хотите использовать случайные эффекты, и они не обязательно имеют много общего с различием между «фиксированным» и «случайным»ℓ2
К сожалению, путаница в понятии, вызванная этими терминами, привела к изобилию противоречивых определений . Из пяти определений по этой ссылке только № 4 является полностью правильным в общем случае, но это также совершенно неинформативно. Вы должны прочитать целые статьи и книги (или, если не так, этот пост), чтобы понять, что это определение подразумевает в практической работе.
пример
Давайте рассмотрим случай, когда моделирование случайных эффектов может быть полезным. Предположим, вы хотите оценить средний доход домохозяйства в США по почтовому индексу. У вас есть большой набор данных, содержащий наблюдения за доходами домохозяйств и почтовые индексы. Некоторые почтовые индексы хорошо представлены в наборе данных, но другие имеют только пару домохозяйств.
Для вашей первоначальной модели вы, скорее всего, взяли бы средний доход в каждом ZIP. Это будет хорошо работать, когда у вас есть много данных для ZIP, но оценки для ваших плохо выбранных ZIP-архивов будут сильно отличаться. Вы можете смягчить это с помощью оценки усадки (так называемый частичный пул), которая будет выдвигать экстремальные значения к среднему доходу по всем почтовым индексам.
Но какую усадку / пул вы должны сделать для определенного ZIP? Интуитивно, это должно зависеть от следующего:
Если вы моделируете почтовый индекс как случайный эффект, оценка среднего дохода во всех почтовых индексах будет подвергаться статистически обоснованному сокращению с учетом всех вышеупомянутых факторов.
Самое приятное то, что модели случайных и смешанных эффектов автоматически обрабатывают (4) оценку изменчивости для всех случайных эффектов в модели. Это сложнее, чем кажется на первый взгляд: вы можете попробовать дисперсию среднего значения выборки для каждого ZIP, но это будет предвзятым показателем, потому что некоторая разница между оценками для разных ZIP является просто дисперсией выборки. В модели случайных эффектов процесс вывода учитывает дисперсию выборки и соответственно уменьшает оценку дисперсии.
С учетом (1) - (4) модель случайных / смешанных эффектов способна определить подходящую усадку для групп с низкой выборкой. Он также может обрабатывать гораздо более сложные модели с множеством различных предикторов.
Связь с иерархическим байесовским моделированием
Если для вас это звучит как иерархическое байесовское моделирование, вы правы - это близкий родственник, но не тождественный. Модели смешанных эффектов являются иерархическими в том смысле, что они определяют распределения для скрытых ненаблюдаемых параметров, но обычно они не являются полностью байесовскими, поскольку гиперпараметрам верхнего уровня не будут даны надлежащие априорные значения. Например, в приведенном выше примере мы, скорее всего, будем рассматривать средний доход в данном ZIP как образец из нормального распределения с неизвестным средним значением и сигмой, которые будут оцениваться с помощью процесса подбора смешанных эффектов. Тем не менее, (не байесовская) модель смешанных эффектов, как правило, не имеет предшествующего значения неизвестного среднего и сигмы, поэтому она не является полностью байесовской. При этом при наличии набора данных приличного размера стандартная модель смешанных эффектов и полностью байесовский вариант часто дают очень похожие результаты.
* Хотя многие трактовки этой темы сосредоточены на узком определении «группы», концепция на самом деле очень гибкая: это просто набор наблюдений, которые имеют общее свойство. Группа может состоять из нескольких наблюдений за одним человеком, или несколькими людьми в школе, или несколькими школами в округе, или несколькими сортами одного вида фруктов, или несколькими видами овощей из одного урожая, или несколькими урожаями. одного и того же вида овощей и т. д. Любая категориальная переменная может использоваться в качестве группирующей переменной.
источник
Я написал об этом в главе книги о смешанных моделях (глава 13 в Fox, Negrete-Yankelevich и Sosa 2014 ); соответствующие страницы (стр. 311-315) доступны в Google Книгах . Я думаю, что вопрос сводится к "каковы определения фиксированных и случайных эффектов?" («смешанная модель» - это просто модель, которая содержит оба). Мое обсуждение говорит немного меньше об их формальном определении (для которого я бы отложил статью Гельмана, связанную с ответом @ JohnSalvatier выше), а также об их практических свойствах и полезности. Вот некоторые выдержки:
источник
Фиксированный эффект: что-то, что экспериментатор непосредственно манипулирует и часто повторяется, например, введение лекарства - одна группа получает наркотик, одна группа получает плацебо.
Случайный эффект: Источник случайных отклонений / экспериментальные единицы, например, индивидуумы, взятые (случайным образом) из популяции для клинического испытания. Случайные эффекты оценивают изменчивость
Смешанный эффект: включает оба, фиксированный эффект в этих случаях оценивает коэффициенты уровня популяции, в то время как случайные эффекты могут учитывать индивидуальные различия в ответ на эффект, например, каждый человек получает и наркотик, и плацебо в разных случаях, фиксированный «Эффект» оценивает эффект препарата, термины «случайный эффект» позволяют каждому человеку по-разному реагировать на препарат.
Общие категории смешанных эффектов - повторные измерения, продольные, иерархические, сплит-сюжет.
источник
Я пришел к этому вопросу отсюда , возможный дубликат.
Уже есть несколько превосходных ответов, но, как указано в принятом ответе, существует много различных (но связанных) применений этого термина, поэтому может быть полезным дать представление о том, как это используется в эконометрике, которая пока не рассматривается здесь полностью. ,
m
Вот код, который генерирует данные и который дает положительную оценку RE и «правильную», отрицательную оценку FE. (Тем не менее, оценки RE также часто будут отрицательными для других семян, см. Выше.)
Выход:
источник
Различие имеет смысл только в контексте небайесовской статистики. В байесовской статистике все параметры модели являются «случайными».
источник
В эконометрике термины обычно применяются в обобщенных линейных моделях, где модель имеет вид
В линейных моделях наличие случайного эффекта не приводит к несогласованности оценки OLS. Однако использование оценки случайных эффектов (например, выполнимых обобщенных наименьших квадратов) приведет к более эффективной оценке.
В нелинейных моделях , таких как probit, tobit, ..., наличие случайного эффекта, как правило, приводит к противоречивой оценке. Использование оценщика случайных эффектов восстановит последовательность.
Как для линейных, так и для нелинейных моделей фиксированные эффекты приводят к смещению. Однако в линейных моделях есть преобразования, которые можно использовать (например, первые различия или унижение), где OLS на преобразованных данных приведет к согласованным оценкам. Для нелинейных моделей существует несколько исключений, в которых существуют преобразования, примером которых может служить фиксированный эффект .
Пример: случайный эффект пробит. предполагать
и наблюдаемый результат
Оценка максимального правдоподобия в пуле минимизирует выборочное среднее значение
Конечно, здесь лог и произведение упрощаются, но по педагогическим причинам это делает уравнение более сопоставимым с оценщиком случайных эффектов, который имеет вид
Мы можем, например, аппроксимировать интеграл рандомизацией, взяв случайных нормалей и оценив вероятность каждого из них.R
Интуиция следующая: мы не знаем, какой тип, , у каждого наблюдения. Вместо этого мы оцениваем произведение вероятностей с течением времени для последовательности розыгрышей. Наиболее вероятный тип наблюдения у будет иметь наибольшую вероятность во всех периодах и, следовательно, будет доминировать вклад вероятности для этой последовательности наблюдений. i Tαi i T
источник
Не совсем формальное определение, но мне нравятся следующие слайды: Смешанные модели и почему социолингвисты должны их использовать ( зеркало ), от Даниэля Эзры Джонсона. Краткое резюме 'предлагается на слайде 4. Хотя оно в основном сфокусировано на психолингвистических исследованиях, оно очень полезно в качестве первого шага.
источник
Другой очень практичный взгляд на модели случайных и фиксированных эффектов связан с эконометрикой при выполнении линейных регрессий на панельных данных . Если вы оцениваете связь между пояснительной переменной и выходной переменной в наборе данных с несколькими выборками на отдельного человека / группу, вы должны использовать эту структуру.
Хорошим примером панельных данных являются ежегодные измерения от группы лиц:
Если мы пытаемся понять взаимосвязь между физической нагрузкой и изменением веса, мы настроим следующую регрессию:
е х е р с я ы е я т + β 1 г е н д е р я + α я + ε я тΔweightit=β0 exerciseit+β1genderi+αi+ϵit
В такой конфигурации существует риск эндогенности. Это может произойти, когда неизмеренные переменные (такие как семейное положение) связаны как с физической нагрузкой, так и с изменением веса. Как объяснено на стр. 16 в этой лекции в Принстоне , модель случайных эффектов (АКА-смешанные эффекты) более эффективна, чем модель с фиксированными эффектами. Тем не менее, он будет неправильно приписывать некоторое влияние неизмеренной переменной на изменение веса упражнениям, к неверному и, возможно, более высокой статистической значимости, чем допустимо. В этом случае модель случайных эффектов не является последовательной оценкой .β 0β0 β0
Модель с фиксированными эффектами (в ее самой основной форме) управляет любыми неизмеряемыми переменными, которые постоянны во времени, но различаются между людьми, явно включая отдельный член перехвата для каждого человека ( ) в уравнении регрессии. В нашем примере, он будет автоматически контролировать смешанные последствия от пола, а также любых неизмеренных факторов (семейное положение, социально-экономический статус, уровень образования и т. Д.). Фактически, пол не может быть включен в регрессию, и не может быть оценен моделью с фиксированными эффектами, так как коллинеарен с .β 1 g e n d e r i α iαi β1 genderi αi
Итак, ключевой вопрос - определить, какая модель подходит. Ответ - тест Хаусмана . Чтобы использовать его, мы проводим регрессию с фиксированными и случайными эффектами, а затем применяем критерий Хаусмана, чтобы увидеть, значительно ли расходятся их оценки коэффициентов. Если они расходятся, эндогенность играет роль, и модель с фиксированными эффектами - лучший выбор. В противном случае мы пойдем со случайными эффектами.
источник