Когда использовать модель со смешанным эффектом?

11

Модели линейных смешанных эффектов - это расширения моделей линейной регрессии для данных, которые собираются и обобщаются в группы. Ключевым преимуществом является то, что коэффициенты могут варьироваться по отношению к одной или нескольким групповым переменным.

Тем не менее, я борюсь с тем, когда использовать модель со смешанным эффектом? Я разработаю свои вопросы, используя игрушечный пример с крайними случаями.

Давайте предположим, что мы хотим смоделировать рост и вес для животных, и мы используем виды в качестве переменной группировки.

  • Если разные группы / виды действительно разные. Скажи собаку и слона. Я думаю, что нет смысла использовать модель со смешанным эффектом, мы должны построить модель для каждой группы.

  • Если разные группы / виды действительно похожи. Скажем, сука и кобель. Я думаю, что мы можем захотеть использовать пол в качестве категориальной переменной в модели.

Итак, я предполагаю, что мы должны использовать модель со смешанным эффектом в средних случаях? Скажем, группа - это кошка, собака, кролик, это животные одинакового размера, но разные.

Есть ли формальный аргумент, чтобы предложить, когда использовать модель со смешанным эффектом, то есть, как рисовать линии между

  1. Построение моделей для каждой группы
  2. Модель со смешанным эффектом
  3. Использовать группу как категориальную переменную в регрессии

Моя попытка: метод 1 - самая «сложная модель» / меньшая степень свободы, а метод 3 - самая «простая модель» / большая степень свободы. И модель со смешанным эффектом находится посередине. Мы можем рассмотреть, сколько данных и насколько сложных данных нам нужно, чтобы выбрать правильную модель в соответствии с Bais Variance Trade Off.

Хайтау Ду
источник
5
Это обсуждается во многих темах на этом форуме. Вы искали? Обратите внимание, что ваш вариант с «категориальной переменной» - это то, что называется «фиксированным эффектом» (переменной группировки), тогда как «смешанная модель» означает «случайный эффект». Так что вы спрашиваете, когда использовать фиксированный и когда использовать случайный эффект. Существуют различные мнения по этому вопросу, и вы можете найти много обсуждений здесь на резюме. Я мог бы опубликовать некоторые ссылки позже.
амеба
Кроме того, разница между «построением отдельных моделей» и «использованием категориальной переменной» мне не ясна. activity ~ condition + species + condition*species- используется speciesкак категориальная переменная, но это полностью эквивалентно отдельной регрессии activity ~ conditionдля каждого вида в отдельности.
амеба
2
Проверьте эту ветку : stats.stackexchange.com/questions/120964/… , она не дает прямого ответа на ваш вопрос, но предоставляет обсуждение, тесно связанное с вашим вопросом.
Тим
3
Ну, вы прочитали stats.stackexchange.com/a/151800/28666 , для начала?
амеба
2
«Если разные группы / виды действительно разные. Скажем, собака и слон. Я думаю, что нет смысла использовать модель со смешанным эффектом, мы должны построить модель для каждой группы». Это действительно верно только в том случае, если вы ожидаете, что эффекты всех других функций будут различаться в зависимости от вида. В большинстве случаев это слишком либеральное предположение.
Мэтью Друри

Ответы:

8

Боюсь, у меня может быть нюансированный и, возможно, неудовлетворительный ответ, что это субъективный выбор исследователя или аналитика данных. Как уже упоминалось в этом разделе, недостаточно просто сказать, что данные имеют «вложенную структуру». Чтобы быть справедливым, однако, это то, как много книг описывают, когда использовать многоуровневые модели. Например, я только что вытащил книгу Джупа Хокса « Многоуровневый анализ» со своей книжной полки, которая дает такое определение:

Многоуровневая проблема касается населения с иерархической структурой.

Даже в довольно хорошем учебнике первоначальное определение кажется круговым. Я думаю, что это частично связано с субъективностью определения того, когда использовать какую модель (включая многоуровневую модель).

Другая книга, Линейные смешанные модели West, Welch & Galecki, говорит, что эти модели предназначены для:

переменные результата, в которых остатки обычно распределены, но могут не быть независимыми или иметь постоянную дисперсию. Проекты исследований, приводящие к наборам данных, которые могут быть надлежащим образом проанализированы с использованием LMM, включают (1) исследования с кластеризованными данными, такими как ученики в классных комнатах, или экспериментальные проекты со случайными блоками, такими как партии сырья для промышленного процесса, и (2) продольные или повторные исследования, в которых предметы измеряются многократно с течением времени или в разных условиях.

Финч, Болин и Келли многоуровневое моделирование в R также говорят о нарушении предположения iid и коррелированных остатков:

Особое значение в контексте многоуровневого моделирования имеет предположение [в стандартной регрессии] о независимо распределенных членах ошибки для отдельных наблюдений в выборке. Это предположение, по сути, означает, что нет никаких отношений между людьми в выборке для зависимой переменной после учета независимых переменных в анализе.

Я считаю, что многоуровневая модель имеет смысл, когда есть основания полагать, что наблюдения не обязательно независимы друг от друга. Какой бы «кластер» ни объяснял эту независимость, можно смоделировать.

Очевидным примером могут быть дети в классах - все они взаимодействуют друг с другом, что может привести к тому, что результаты их тестов будут независимыми. Что если в одном классе есть кто-то, кто задает вопрос, который приводит к тому, что материал в этом классе охватывается, а другие классы не рассматриваются? Что, если учитель в одних классах более активен, чем в других? В этом случае будет некоторая не независимость данных; в многоуровневых словах мы могли бы ожидать, что некоторая дисперсия в зависимой переменной обусловлена ​​кластером (то есть классом).

Я думаю, что ваш пример «собака против слона» зависит от независимых и зависимых переменных, представляющих интерес. Например, скажем, мы спрашиваем, есть ли влияние кофеина на уровень активности. Животные со всего зоопарка случайным образом получают либо кофеиновый напиток, либо контрольный напиток.

Если мы являемся исследователем, который интересуется кофеином, мы можем указать многоуровневую модель, потому что мы действительно заботимся о влиянии кофеина. Эта модель будет указана как:

activity ~ condition + (1+condition|species)

Это особенно полезно, если существует большое количество видов, над которыми мы проверяем эту гипотезу. Тем не менее, исследователь может быть заинтересован в видоспецифических эффектах кофеина. В этом случае они могли бы указать виды в качестве фиксированного эффекта:

activity ~ condition + species + condition*species

Это, очевидно, является проблемой, если существует, скажем, 30 видов, создающих громоздкий дизайн 2 х 30. Тем не менее, вы можете проявить творческий подход к моделированию этих отношений.

Например, некоторые исследователи выступают за еще более широкое использование многоуровневого моделирования. Гельман, Хилл и Ядзима (2012) утверждают, что многоуровневое моделирование можно использовать как поправку для множественных сравнений, даже в экспериментальных исследованиях, где структура данных не является явно иерархической по своей природе:

Более сложные проблемы возникают при моделировании нескольких сравнений, которые имеют большую структуру. Например, предположим, у нас есть пять показателей результата, три варианта лечения и подгруппы, классифицированные по двум полам и четырем расовым группам. Мы не хотели бы моделировать эту структуру 2 × 3 × 4 × 5 как 120 взаимозаменяемых групп. Даже в этих более сложных ситуациях мы считаем, что многоуровневое моделирование должно и должно в конечном итоге заменить классические процедуры множественных сравнений.

Проблемы могут быть смоделированы различными способами, и в неоднозначных случаях несколько подходов могут показаться привлекательными. Я считаю, что наша задача - выбрать разумный, обоснованный подход и сделать это прозрачно.

Марк Уайт
источник
5

Конечно, вы можете построить модель для каждой отдельной группы, в этом нет ничего плохого. Однако вам потребуется больший размер выборки и управление несколькими моделями.

Используя смешанную модель, вы объединяете (и обмениваетесь) данные вместе и, следовательно, требует меньшего размера выборки.

При этом мы разделяем статистическую силу. Идея заключается в том, что то, что мы можем вывести хорошо в одной группе данных, может помочь нам с чем-то, что мы не можем вывести хорошо в другой.

Смешанные модели также предотвращают несправедливо доминирующие выводы из групп с избыточной выборкой.

Я хочу сказать, что если вы хотите смоделировать базовую иерархическую структуру, вам следует добавить случайные эффекты в вашу модель. В противном случае, если вас не волнует интерпретация вашей модели, вы ее не используете.

https://www.dropbox.com/s/rzi2rsou6h817zz/Datascience%20Presentation.pdf?dl=0

дает соответствующее обсуждение. Автор обсуждал, почему он не хотел запускать отдельные регрессионные модели.

введите описание изображения здесь

Привет мир
источник
4

В моделях со смешанными эффектами вы добавляете случайные (ошибочные) термины в вашу модель, чтобы вы «смешивали» фиксированные и случайные эффекты. Итак, еще один подход к рассмотрению того, когда использовать модели смешанных эффектов, может состоять в том, чтобы посмотреть, что такое «случайный эффект». Таким образом, в дополнение к ранее приведенным ответам, я также нахожу различие между терминами «фиксированный» и «случайный» эффект из Бейтса (2010) поучительным, раздел 1.1 (особенно на странице 2).

Параметры, связанные с конкретными уровнями ковариаты, иногда называют «эффектами» уровней. Если множество возможных уровней ковариаты фиксировано и воспроизводимо, мы моделируем ковариату, используя параметры с фиксированными эффектами. Если наблюдаемые нами уровни представляют собой случайную выборку из набора всех возможных уровней, мы включаем в модель случайные эффекты. Об этом различии между параметрами с фиксированными эффектами и случайными эффектами следует отметить две вещи. Во-первых, имена вводят в заблуждение, потому что различие между фиксированным и случайным является скорее свойством уровней категориального ковариата, чем свойством эффектов, связанных с ними.

Это определение часто применяется к некоторой иерархической структуре, такой как страны или классные комнаты, потому что у вас всегда есть «случайная» выборка стран или классных комнат - данные не были собраны от всех возможным странам или классным комнатам.

Секс, однако, является фиксированным (или, по крайней мере, считается фиксированным). Если у вас есть мужчина или женщина, других половых уровней не осталось (могут быть некоторые гендерные исключения, но это в основном игнорируется).

Или, скажем, уровень образования: если вы спросите, имеют ли люди более низкое, среднее или высшее образование, не осталось никаких уровней, поэтому вы не взяли «случайную» выборку всех возможных уровней образования (следовательно, это фиксированный эффект).

Даниил
источник
2
+1 Почему отрицательный голос? Это цитата уважаемого статистика по моделированию случайных эффектов; Следующий комментарий довольно прямолинеен и четко определен ...
usεr11852
3

Вы используете смешанные модели, когда можно сделать некоторые разумные предположения, основанные на дизайне исследования, о природе корреляции между наблюдениями и выводом, желаемым на индивидуальном уровне или условно эффектах. Смешанные модели учитывают спецификации случайных эффектов, которые являются удобным представлением структур корреляции, которые естественным образом возникают при сборе данных.

Наиболее распространенным типом смешанной модели является модель случайных перехватов, которая оценивает скрытое распределение общих констант, имеющих нормальное распределение с конечной дисперсией в среднем по 0 в кластерах индивидов, определенных в наборе данных. Этот подход учитывает потенциально сотни смешанных факторов, общих для групп наблюдений или кластеров, но различающихся между кластерами.

Вторым распространенным типом смешанной модели является модель случайных уклонов, которая, подобно модели случайных перехватов, оценивает скрытое распределение взаимодействий предиктор времени, которое опять-таки получается из 0-среднего среднего распределения с конечной дисперсией в рамках группового исследования или кластеров. наблюдений, измеренных в перспективе или в продольном направлении.

сор(Y1,Y2)знак равноρY1,Y2сор(YT,Ys)знак равноρ|T-s|YT,YsT,sи 0 в противном случае. Результаты не идентичны, потому что случайное пересечение вынуждает наблюдения в кластерах быть положительно связанными, что почти всегда является разумным предположением.

Индивидуальный уровень или условные эффекты могут быть сопоставлены с уровнем населения или предельными эффектами. Предельные эффекты представляют эффект в популяции от вмешательства или скрининга. В качестве примера, вмешательство, направленное на улучшение соблюдения правил реабилитации при злоупотреблении психоактивными веществами, может привести к посещению группы пациентов, госпитализированных с различными состояниями, в течение 3 месяцев. Продолжительность использования может варьироваться между пациентами и строго предсказать соблюдение семинара с более длительным использованием участников, имеющих большие склонности к зависимости и избегания. Анализ на индивидуальном уровне может показать, что исследование является эффективным, несмотря на тот факт, что участники с более длительной зависимостью не посещали до получения вмешательства и продолжали не посещать после получения вмешательства.

Маргинальные эффекты имеют менее точный вывод из-за игнорирования однородности между кластерами во времени и пространстве. Их можно оценить с помощью обобщенных оценочных уравнений или путем маргинализации смешанных моделей.

Adamo
источник
2
+1, я хотел бы принять 2 ответа !. мой комментарий к ответу @ Mark также относится к вашему ответу. что вы помогли мне понять, как мы определяем «наблюдение в кластерах»
Haitao Du
2
@ hxd1011 Это исходит строго из заявления о дизайне исследования. Любой проект с расслоенными образцами или повторными измерениями будет иметь независимые данные. Это не случай для статистического тестирования. Сообщение или, по крайней мере, проверка случайных эффектов может помочь понять степень корреляции, ICC является примером такой меры.
AdamO
0

Смешанные эффекты следует использовать, когда данные имеют вложенную или иерархическую структуру. Это фактически нарушает предположение о независимости измерений, потому что все измерения в пределах одной группы / уровня коррелированы. В случае

«Если разные группы / виды действительно похожи. Скажем, сука и кобель. Я думаю, что мы можем использовать пол в качестве категориальной переменной в модели».

пол был бы переменным фактором и фиксированным эффектом, тогда как изменчивость размеров собак в пределах пола - случайный эффект. Моя модель будет

response ~ sex + (1|size), data=data

Интуитивно понятно, что бешенства, собак и кошек следует моделировать отдельно, поскольку размеры собак и кошек не коррелируют, однако размер двух собак является своего рода «внутривидовой» изменчивостью.

marianess
источник
Я лично считаю, что термин «вложенная или иерархическая структура» является слишком общим, и мне трудно определить границы.
Haitao Du
Может быть ты прав. Я думаю, что тогда LMM используются, когда допущение IID нарушается из-за некоторой группировки, присутствующей в данных.
Марианесса