Модели линейных смешанных эффектов - это расширения моделей линейной регрессии для данных, которые собираются и обобщаются в группы. Ключевым преимуществом является то, что коэффициенты могут варьироваться по отношению к одной или нескольким групповым переменным.
Тем не менее, я борюсь с тем, когда использовать модель со смешанным эффектом? Я разработаю свои вопросы, используя игрушечный пример с крайними случаями.
Давайте предположим, что мы хотим смоделировать рост и вес для животных, и мы используем виды в качестве переменной группировки.
Если разные группы / виды действительно разные. Скажи собаку и слона. Я думаю, что нет смысла использовать модель со смешанным эффектом, мы должны построить модель для каждой группы.
Если разные группы / виды действительно похожи. Скажем, сука и кобель. Я думаю, что мы можем захотеть использовать пол в качестве категориальной переменной в модели.
Итак, я предполагаю, что мы должны использовать модель со смешанным эффектом в средних случаях? Скажем, группа - это кошка, собака, кролик, это животные одинакового размера, но разные.
Есть ли формальный аргумент, чтобы предложить, когда использовать модель со смешанным эффектом, то есть, как рисовать линии между
- Построение моделей для каждой группы
- Модель со смешанным эффектом
- Использовать группу как категориальную переменную в регрессии
Моя попытка: метод 1 - самая «сложная модель» / меньшая степень свободы, а метод 3 - самая «простая модель» / большая степень свободы. И модель со смешанным эффектом находится посередине. Мы можем рассмотреть, сколько данных и насколько сложных данных нам нужно, чтобы выбрать правильную модель в соответствии с Bais Variance Trade Off.
источник
activity ~ condition + species + condition*species
- используетсяspecies
как категориальная переменная, но это полностью эквивалентно отдельной регрессииactivity ~ condition
для каждого вида в отдельности.Ответы:
Боюсь, у меня может быть нюансированный и, возможно, неудовлетворительный ответ, что это субъективный выбор исследователя или аналитика данных. Как уже упоминалось в этом разделе, недостаточно просто сказать, что данные имеют «вложенную структуру». Чтобы быть справедливым, однако, это то, как много книг описывают, когда использовать многоуровневые модели. Например, я только что вытащил книгу Джупа Хокса « Многоуровневый анализ» со своей книжной полки, которая дает такое определение:
Даже в довольно хорошем учебнике первоначальное определение кажется круговым. Я думаю, что это частично связано с субъективностью определения того, когда использовать какую модель (включая многоуровневую модель).
Другая книга, Линейные смешанные модели West, Welch & Galecki, говорит, что эти модели предназначены для:
Финч, Болин и Келли многоуровневое моделирование в R также говорят о нарушении предположения iid и коррелированных остатков:
Я считаю, что многоуровневая модель имеет смысл, когда есть основания полагать, что наблюдения не обязательно независимы друг от друга. Какой бы «кластер» ни объяснял эту независимость, можно смоделировать.
Очевидным примером могут быть дети в классах - все они взаимодействуют друг с другом, что может привести к тому, что результаты их тестов будут независимыми. Что если в одном классе есть кто-то, кто задает вопрос, который приводит к тому, что материал в этом классе охватывается, а другие классы не рассматриваются? Что, если учитель в одних классах более активен, чем в других? В этом случае будет некоторая не независимость данных; в многоуровневых словах мы могли бы ожидать, что некоторая дисперсия в зависимой переменной обусловлена кластером (то есть классом).
Я думаю, что ваш пример «собака против слона» зависит от независимых и зависимых переменных, представляющих интерес. Например, скажем, мы спрашиваем, есть ли влияние кофеина на уровень активности. Животные со всего зоопарка случайным образом получают либо кофеиновый напиток, либо контрольный напиток.
Если мы являемся исследователем, который интересуется кофеином, мы можем указать многоуровневую модель, потому что мы действительно заботимся о влиянии кофеина. Эта модель будет указана как:
Это особенно полезно, если существует большое количество видов, над которыми мы проверяем эту гипотезу. Тем не менее, исследователь может быть заинтересован в видоспецифических эффектах кофеина. В этом случае они могли бы указать виды в качестве фиксированного эффекта:
Это, очевидно, является проблемой, если существует, скажем, 30 видов, создающих громоздкий дизайн 2 х 30. Тем не менее, вы можете проявить творческий подход к моделированию этих отношений.
Например, некоторые исследователи выступают за еще более широкое использование многоуровневого моделирования. Гельман, Хилл и Ядзима (2012) утверждают, что многоуровневое моделирование можно использовать как поправку для множественных сравнений, даже в экспериментальных исследованиях, где структура данных не является явно иерархической по своей природе:
Проблемы могут быть смоделированы различными способами, и в неоднозначных случаях несколько подходов могут показаться привлекательными. Я считаю, что наша задача - выбрать разумный, обоснованный подход и сделать это прозрачно.
источник
Конечно, вы можете построить модель для каждой отдельной группы, в этом нет ничего плохого. Однако вам потребуется больший размер выборки и управление несколькими моделями.
Используя смешанную модель, вы объединяете (и обмениваетесь) данные вместе и, следовательно, требует меньшего размера выборки.
При этом мы разделяем статистическую силу. Идея заключается в том, что то, что мы можем вывести хорошо в одной группе данных, может помочь нам с чем-то, что мы не можем вывести хорошо в другой.
Смешанные модели также предотвращают несправедливо доминирующие выводы из групп с избыточной выборкой.
Я хочу сказать, что если вы хотите смоделировать базовую иерархическую структуру, вам следует добавить случайные эффекты в вашу модель. В противном случае, если вас не волнует интерпретация вашей модели, вы ее не используете.
дает соответствующее обсуждение. Автор обсуждал, почему он не хотел запускать отдельные регрессионные модели.
источник
В моделях со смешанными эффектами вы добавляете случайные (ошибочные) термины в вашу модель, чтобы вы «смешивали» фиксированные и случайные эффекты. Итак, еще один подход к рассмотрению того, когда использовать модели смешанных эффектов, может состоять в том, чтобы посмотреть, что такое «случайный эффект». Таким образом, в дополнение к ранее приведенным ответам, я также нахожу различие между терминами «фиксированный» и «случайный» эффект из Бейтса (2010) поучительным, раздел 1.1 (особенно на странице 2).
Это определение часто применяется к некоторой иерархической структуре, такой как страны или классные комнаты, потому что у вас всегда есть «случайная» выборка стран или классных комнат - данные не были собраны от всех возможным странам или классным комнатам.
Секс, однако, является фиксированным (или, по крайней мере, считается фиксированным). Если у вас есть мужчина или женщина, других половых уровней не осталось (могут быть некоторые гендерные исключения, но это в основном игнорируется).
Или, скажем, уровень образования: если вы спросите, имеют ли люди более низкое, среднее или высшее образование, не осталось никаких уровней, поэтому вы не взяли «случайную» выборку всех возможных уровней образования (следовательно, это фиксированный эффект).
источник
Вы используете смешанные модели, когда можно сделать некоторые разумные предположения, основанные на дизайне исследования, о природе корреляции между наблюдениями и выводом, желаемым на индивидуальном уровне или условно эффектах. Смешанные модели учитывают спецификации случайных эффектов, которые являются удобным представлением структур корреляции, которые естественным образом возникают при сборе данных.
Наиболее распространенным типом смешанной модели является модель случайных перехватов, которая оценивает скрытое распределение общих констант, имеющих нормальное распределение с конечной дисперсией в среднем по 0 в кластерах индивидов, определенных в наборе данных. Этот подход учитывает потенциально сотни смешанных факторов, общих для групп наблюдений или кластеров, но различающихся между кластерами.
Вторым распространенным типом смешанной модели является модель случайных уклонов, которая, подобно модели случайных перехватов, оценивает скрытое распределение взаимодействий предиктор времени, которое опять-таки получается из 0-среднего среднего распределения с конечной дисперсией в рамках группового исследования или кластеров. наблюдений, измеренных в перспективе или в продольном направлении.
Индивидуальный уровень или условные эффекты могут быть сопоставлены с уровнем населения или предельными эффектами. Предельные эффекты представляют эффект в популяции от вмешательства или скрининга. В качестве примера, вмешательство, направленное на улучшение соблюдения правил реабилитации при злоупотреблении психоактивными веществами, может привести к посещению группы пациентов, госпитализированных с различными состояниями, в течение 3 месяцев. Продолжительность использования может варьироваться между пациентами и строго предсказать соблюдение семинара с более длительным использованием участников, имеющих большие склонности к зависимости и избегания. Анализ на индивидуальном уровне может показать, что исследование является эффективным, несмотря на тот факт, что участники с более длительной зависимостью не посещали до получения вмешательства и продолжали не посещать после получения вмешательства.
Маргинальные эффекты имеют менее точный вывод из-за игнорирования однородности между кластерами во времени и пространстве. Их можно оценить с помощью обобщенных оценочных уравнений или путем маргинализации смешанных моделей.
источник
Смешанные эффекты следует использовать, когда данные имеют вложенную или иерархическую структуру. Это фактически нарушает предположение о независимости измерений, потому что все измерения в пределах одной группы / уровня коррелированы. В случае
пол был бы переменным фактором и фиксированным эффектом, тогда как изменчивость размеров собак в пределах пола - случайный эффект. Моя модель будет
Интуитивно понятно, что бешенства, собак и кошек следует моделировать отдельно, поскольку размеры собак и кошек не коррелируют, однако размер двух собак является своего рода «внутривидовой» изменчивостью.
источник