Имеет ли смысл вкладывать фиксированный эффект в случайный или как кодировать повторяющиеся измерения в R (aov и lmer)?

23

Я просматривал этот обзор формул lm / lmer R от @conjugateprior и был озадачен следующей записью:

Теперь предположим, что A случайный, но B фиксирован, а B вложен в A.

aov(Y ~ B + Error(A/B), data=d)

Ниже приведена аналогичная смешанная модельная формула lmer(Y ~ B + (1 | A:B), data=d) для того же случая.

Я не совсем понимаю, что это значит. В эксперименте, где субъекты делятся на несколько групп, мы имеем случайный фактор (субъекты), вложенный в фиксированный фактор (группы). Но как фиксированный фактор может быть вложен в случайный фактор? Что-то фиксированное, вложенное в случайные предметы? Это вообще возможно? Если это невозможно, имеют ли смысл эти формулы R?


Этот обзор упоминается будет частично , на основании страниц личностно-проекта по ведению ANOVA в R опиралась на этом учебнике на повторных измерений в R . Там приведен следующий пример для повторных измерений ANOVA:

aov(Recall ~ Valence + Error(Subject/Valence), data.ex3)

Здесь субъекты представлены словами различной валентности (фактор с тремя уровнями), и их время вспоминания измеряется. Каждый предмет представлен словами всех трех уровней валентности. Я не вижу ничего вложенного в этот дизайн (кажется, что он скрещен, как в великом ответе здесь ), и поэтому я наивно думаю, что Error(Subject)или (1 | Subject)должен быть подходящим случайным термином в этом случае. Subject/Valence«Гнездования» (?) Сбивает с толку.

Обратите внимание, что я понимаю, что Valenceэто фактор внутри субъекта . Но я думаю, что это не «вложенный» фактор в предметах (потому что все предметы испытывают все три уровня Valence).


Обновить. Я изучаю вопросы по CV о кодировании повторных мер ANOVA в R.

  • Здесь следующее используется для фиксированных внутри субъекта / повторных измерений A и случайного subject:

    summary(aov(Y ~ A + Error(subject/A), data = d))
    anova(lme(Y ~ A, random = ~1|subject, data = d))
    
  • Здесь для двух фиксированных внутри-субъектных / повторных измерений эффектов A и B:

    summary(aov(Y ~ A*B + Error(subject/(A*B)), data=d))
    lmer(Y ~ A*B + (1|subject) + (1|A:subject) + (1|B:subject), data=d) 
    
  • Здесь для трех внутрисубъектных эффектов A, B и C:

    summary(aov(Y ~ A*B*C + Error(subject/(A*B*C)), data=d))
    lmer(Y ~ A*B*C + (1|subject) + (0+A|subject) + (0+B|subject) + (0+C|subject) + (0+A:B|subject) + (0+A:C|subject) + (0+B:C|subject), data = d)
    

Мои вопросы:

  1. Почему Error(subject/A)и нет Error(subject)?
  2. Является ли это (1|subject)или (1|subject)+(1|A:subject)или просто (1|A:subject)?
  3. Это (1|subject) + (1|A:subject)или нет (1|subject) + (0+A|subject), и почему не просто (A|subject)?

К настоящему времени я видел некоторые потоки, которые утверждают, что некоторые из этих вещей эквивалентны (например, первое: утверждение, что они одинаковы, но противоположное требование к SO ; третье: вид утверждения, что они одинаковы ). Они?

амеба говорит восстановить монику
источник
2
Просто быстрый комментарий, чтобы сказать, что, говоря строго концептуально , по моему мнению, практически никогда не имеет смысла иметь фиксированный фактор, вложенный в случайный фактор. Я прочитал, по крайней мере, один автор учебника, который сказал столько же (не могу вспомнить ссылку на данный момент). Тем не менее, возможно, что некоторые из спецификаций моделей, которые вы написали выше, окажутся статистически эквивалентными моделям, которые имеют больше смысла ... Мне придется подумать об этом больше и немного поиграть с этим.
Джейк Уэстфолл,
4
На самом деле, я думаю, что имеет смысл, если вы подумаете о том, как R интерпретирует синтаксис A / B: он просто расширяет это до A + A: B. Таким образом, если мы рассмотрим случайный термин, подобный subject/conditionэтому, это концептуально сомнительно, потому что, кажется, предполагает, что условия вложены в субъекты, когда очевидно, что это противоположно, но модель, которая на самом деле соответствует subject + subject:condition, - это вполне допустимая модель со случайными эффектами субъекта. и случайный предмет X склонов.
Джейк Уэстфолл,
@JakeWestfall Спасибо, сейчас я думаю об этом сам, но мне бы очень хотелось, чтобы кто-нибудь объяснил это правильно. На самом деле я удивлен, что это оказывается нетривиальным вопросом; Я бы ожидал, что вы будете одним из тех, кто сразу ответит. Но это облегчение, так как изначально я думал, что мое замешательство должно быть глупым. Кстати, есть ли какие-то стандартные ссылки lmи aovформулы? Если я хочу иметь авторитетный источник о том, что именно aov(это обертка lm?) И как Error()работают термины, где я должен искать?
говорит амеба, восстанови Монику
1
@amoeba Да, aovэто оболочка lmв том смысле, который lmиспользуется для подгонки наименьших квадратов, но aovвыполняет дополнительную работу (в частности, переводит Errorтермин для lm). Официальным источником является исходный код или, возможно, ссылка, приведенная в help("aov"): Chambers et al (1992). Но у меня нет доступа к этой ссылке, поэтому я посмотрю в исходный код.
Роланд
Примечание для себя: вот хорошая шпаргалка uni-kiel.de/psychologie/rexrepos/posts/anovaMixed.html . Еще один: rpsychologist.com/r-guide-longtial-lme-lmer . Кроме того, Бейтс: stat.wisc.edu/~bates/UseR2008/WorkshopD.pdf и stat.ethz.ch/pipermail/r-sig-mixed-models/2009q1/001736.html
амеба говорит восстановить Монику

Ответы:

12

В смешанных моделях обработка факторов как фиксированных или случайных, особенно в сочетании с тем, являются ли они скрещенными, частично скрещенными или вложенными, может привести к путанице. Кроме того, по-видимому, существуют различия в терминологии между тем, что подразумевается под вложенностью в мире анова / спроектированных экспериментов, и миром смешанных / многоуровневых моделей.

Я не признаю, что знаю все ответы, и мой ответ не будет полным (и может вызвать дополнительные вопросы), но я попытаюсь решить некоторые из проблем здесь:

Имеет ли смысл вкладывать фиксированный эффект в случайный или как кодировать повторяющиеся измерения в R (aov и lmer)?

(название вопроса)

Нет, я не верю, что это имеет смысл. Когда мы имеем дело с повторяющимися мерами, то обычно, что бы ни повторялись меры, они будут случайными, давайте просто назовем это Subject, и lme4мы захотим включить Subjectсправа от одного или нескольких |случайную часть формула. Если у нас есть другие случайные эффекты, то они либо пересекаются, либо частично пересекаются, либо вкладываются - и мой ответ на этот вопрос касается этого.

Проблема с этими разработанными экспериментами типа «анова», по-видимому, заключается в том, как бороться с факторами, которые обычно считаются фиксированными, в ситуации с повторными измерениями, и вопросы в теле ОП говорят об этом:

Почему ошибка (субъект / A), а не ошибка (субъект)?

Я обычно не использую, aov()поэтому я мог что-то упустить, но для меня Error(subject/A)это очень вводит в заблуждение в случае связанного вопроса . Error(subject)на самом деле приводит к точно таким же результатам.

Это (1 | субъект) или (1 | субъект) + (1 | A: субъект) или просто (1 | A: субъект)?

Это относится к этому вопросу. В этом случае все следующие формулировки случайных эффектов приводят к абсолютно одинаковому результату:

(1|subject)
(1|A:subject)
(1|subject) + (1|A:subject)
(1|subject) + (1|A:subject) + (1|B:subject)

Однако это связано с тем, что смоделированный набор данных в вопросе не имеет изменений внутри чего-либо, он просто создается с помощью Y = rnorm(48). Если мы возьмем реальный набор данных, такой как cakeнабор данных в lme4, мы обнаружим, что в общем случае это не так. Из документации приведена экспериментальная установка:

Данные по углу поломки шоколадных тортов делаются по трем различным рецептам и выпекаются при шести разных температурах. Это сплит-сюжетный дизайн с рецептами, представляющими собой целые единицы, и различные температуры, применяемые к единицам (внутри повторов). Экспериментальные примечания предполагают, что нумерация повторов представляет временное упорядочение.

Кадр данных с 270 наблюдениями по следующим 5 переменным.

replicate фактор с уровнями от 1 до 15

recipe фактор с уровнями A, B и C

temperature упорядоченный фактор с уровнями 175 <185 <195 <205 <215 <225

temp числовое значение температуры выпечки (градусы F).

angle числовой вектор, указывающий угол, под которым торт сломался.

Итак, мы повторили измерения внутри replicate, и нас также интересуют фиксированные факторы recipeи temperature(мы можем игнорировать, tempтак как это просто другое кодирование temperature), и мы можем визуализировать ситуацию, используя xtabs:

> xtabs(~recipe+replicate,data=cake)

     replicate
recipe 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
     A 6 6 6 6 6 6 6 6 6  6  6  6  6  6  6
     B 6 6 6 6 6 6 6 6 6  6  6  6  6  6  6
     C 6 6 6 6 6 6 6 6 6  6  6  6  6  6  6

Если бы recipeэто был случайный эффект, мы бы сказали, что это скрещенные случайные эффекты. Ни в коем случае не recipe Aпринадлежит replicate 1или любой другой копии.

> xtabs(~temp+replicate,data=cake)

     replicate
temp  1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
  175 3 3 3 3 3 3 3 3 3  3  3  3  3  3  3
  185 3 3 3 3 3 3 3 3 3  3  3  3  3  3  3
  195 3 3 3 3 3 3 3 3 3  3  3  3  3  3  3
  205 3 3 3 3 3 3 3 3 3  3  3  3  3  3  3
  215 3 3 3 3 3 3 3 3 3  3  3  3  3  3  3
  225 3 3 3 3 3 3 3 3 3  3  3  3  3  3  3

Аналогично для temp.

Итак, первая модель, которая нам подойдет:

> lmm1 <-  lmer(angle ~ recipe * temperature + (1|replicate), cake, REML= FALSE)

Это будет относиться к каждому replicateкак к единственному источнику случайных отклонений (кроме разности, конечно). Но могут быть случайные различия между рецептами. Таким образом, у нас может возникнуть соблазн включить в recipeкачестве еще одного (скрещенного) случайного эффекта, но это было бы необоснованным, поскольку у нас есть только 3 уровня, recipeпоэтому мы не можем ожидать, что модель будет хорошо оценивать компоненты дисперсии. Таким образом, вместо этого мы можем использовать replicate:recipeв качестве переменной группировки, которая позволит нам рассматривать каждую комбинацию репликации и рецепта как отдельный фактор группировки. Так что если в приведенной выше модели у нас было бы 15 случайных перехватов для уровней, replicateто теперь у нас будет 45 случайных перехватов для каждой из отдельных комбинаций:

lmm3 <-  lmer(angle ~ recipe * temperature + (1|replicate:recipe) , cake, REML= FALSE)

Обратите внимание, что теперь у нас есть (очень немного) разные результаты, указывающие, что есть некоторая случайная изменчивость из-за рецепта, но не очень.

Мы могли бы сделать то же самое с temperature.

Теперь, возвращаясь к вашему вопросу, вы также спросите

Почему (1|subject) + (1|A:subject)и нет (1|subject) + (0+A|subject)или даже просто (A|subject)?

Я не совсем уверен, откуда это (с использованием случайных уклонов) происходит - это, кажется, не возникает в 2 связанных вопросах - но моя проблема в (1|subject) + (1|A:subject)том, что это точно то же самое, (1|subject/A)что означает, что Aвложено в subject, что в Поворот означает (для меня), что каждый уровень Aпроисходит в 1 и только 1 уровень, subjectкоторый здесь явно не тот.

Я, вероятно, добавлю и / или отредактирую этот ответ после того, как еще немного подумаю, но я хотел, чтобы мои первоначальные мысли были опущены.

Роберт Лонг
источник
Большое спасибо (+1). Я не уверен, что понимаю cakeнабор данных. Кажется, что репликация вложена в рецепт; причина xtabsне показывает, что это именно та причина, которую вы описываете в своем ответе «вложенный-против-скрещенный»: репликация запутанно кодируется как 1-15, а не как 1-45. Для каждого рецепта было сделано 15 «повторений» с 6 пирожными; затем каждый пирог выпекали при разной температуре. Таким образом, рецепт - это фактор между субъектами, а температура - фактор внутри объекта. Так что согласно твоему ответу, так и должно быть (1|recipe/replicate). Нет? (1|replicate:recipe)вероятно эквивалентно.
говорит амеба, восстанови Монику
Я сосредоточил свой вопрос только на факторах внутри субъекта, так что это было бы похоже на ограничение cakeтолько одним рецептом. Что касается третьего пункта, о котором вы говорите, что не знаете, откуда он взялся, просмотрите самую последнюю ссылку в моем вопросе с примером трех внутрисубъектных факторов. См. Также комментарий Джейка под голосом «Q», где он упоминает случайные уклоны.
говорит амеба, восстанови Монику
А в отношении aovвас правы, что кажется, что Error(subject/A)и Error(subject)дают те же результаты, если нет других факторов, но возьмем пример из связанной ветки с двумя факторами, а там Error(subject/(A*B))и Error(subject)не эквивалентны. В настоящее время я понимаю, что это потому, что первый включает в себя случайные наклоны.
говорит амеба, восстанови Монику
@amoeba cakeнабор данных не был хорошим рабочим примером. Мои извенения. Я посмотрю немного глубже и, возможно, попытаюсь найти лучший для иллюстрации.
Роберт Лонг
Спасибо. Ждем любых обновлений, а также обновлений, которые готовит Плацидия. Тем временем, я думаю, что я буду щедростью здесь.
говорит амеба, восстанови Монику
3

Ooooops. Оповещатели заметили, что мой пост был полон чепухи. Я путал вложенные дизайны и повторные меры дизайна.

Этот сайт дает полезную разбивку различий между вложенными и повторными измерениями. Интересно, что автор показывает ожидаемые средние квадраты для фиксированной в фиксированной, случайной в фиксированной и случайной в случайной - но не фиксированной в случайной. Трудно представить, что бы это значило - если факторы уровня A выбираются случайным образом, то случайность теперь определяет выбор факторов уровня B. Если 5 школ выбираются случайным образом из школьного совета, а затем 3 учителя Выбранные из каждой школы (учителя, вложенные в школы), уровни фактора «учитель» теперь являются случайным выбором учителей из школьного совета в силу случайного выбора школ. Я не могу «починить» учителей, которые будут у меня в эксперименте.

Placidia
источник
2
+1, спасибо большое. Все в вашем ответе имеет смысл для меня. Однако я думаю, что мы должны согласиться с тем, что слово «вложенный» используется в двух разных смыслах, и это вызывает путаницу. @RobertLong говорит, что A вкладывается в B, когда каждый уровень B встречается вместе с различными уровнями классов AEg, вложенных в школах, расположенных в городах и т. Д. В вашем примере предметы вкладываются в фактор лечения / контроля. Вы говорите, что время вложено в предметы, но все уровни времени происходят со всеми предметами, поэтому Роберт сказал бы, что они пересеклись! Это другой "вложенный". Правильно?
говорит амеба, восстанови Монику
1
В вашем примере ясно, что время и лечение являются фиксированными эффектами, но далеко не ясно, что время вкладывается в пациентов. Пожалуйста, можете ли вы дать определение «вложенного»?
Джо Кинг,
Моя ошибка. Меня смущало вложение и повторные меры. Я изменил свой ответ - снова!
Плацидия
На самом деле мне понравился ваш оригинальный ответ с исправлениями / дополнениями от ранее сегодня. На мой вопрос было много полезной информации, потому что, как вы видите, я действительно заинтересован в «повторных измерениях» здесь (а вопрос о «вложенности» был просто терминологическим пунктом). Я бы посоветовал вам сохранить предыдущую версию!
говорит амеба, восстанови Монику
2
Когда я писал это, я понял, что случайные эффекты в повторяющихся измерениях являются вложенными, и я хочу проверить, как работает математика и степени свободы. Я уточню свой ответ, когда буду уверен, что мне это прибили!
Плацидия