Порядок переменных в ANOVA имеет значение, не так ли?

20

Правильно ли я понимаю, что порядок, в котором переменные указываются в многофакторном ANOVA, имеет значение, но что порядок не имеет значения при выполнении множественной линейной регрессии?

Таким образом, предполагая такой результат, как измеренная кровопотеря y и две категориальные переменные

  1. метод аденоидэктомии a ,
  2. метод тонзиллэктомии b .

Модель y~a+bотличается от модели y~b+a(или, как мне кажется, моя реализация в R).

Правильно ли я понимаю, что термин здесь заключается в том, что ANOVA - это иерархическая модель, поскольку она сначала приписывает как можно большую дисперсию первому фактору, прежде чем пытаться приписать остаточную дисперсию второму фактору?

В приведенном выше примере иерархия имеет смысл, потому что я всегда делаю аденоидэктомию, прежде чем делать тонзиллэктомию, но что произойдет, если у одного будет две переменные без присущего порядка?

Фаррел
источник
12
Порядок имеет значение в ANOVA с несбалансированным дизайном, т. Е. При неравных размерах ячеек. Эта тема часто рассматривается под заголовком «типы сумм квадратов». См. Epm.sagepub.com/content/38/3/621.full.pdf+html и ответ chl на stats.stackexchange.com/questions/11209/…
каракал
1
Смотрите также ответ gung в stats.stackexchange.com/questions/20452 .
говорит амеба, восстанови Монику
Я только что продлил свое старое обсуждение, надеясь, что оно прольет новый свет на этот вопрос. Это, безусловно, все еще нуждается в работе, и, возможно, у кого-то есть нервы, чтобы помочь редактировать его. Вот что у меня есть: go.helms-net.de/stat/div/%28SSE%29%20ANovaRegression_SPSS_R.htm Возможно, здесь есть что-то интересное, что может быть использовано для какого-то точного ответа на этот вопрос.
Готфрид Хелмс

Ответы:

17

Этот вопрос, очевидно, возник из исследования с несбалансированным двусторонним дизайном, проанализированного в R с помощью aov()функции; На этой странице представлен более свежий и подробный пример этой проблемы.

Общий ответ на этот вопрос, как и для многих, звучит так: «Это зависит». Здесь это зависит от того, сбалансирован ли дизайн и, если нет, какой вкус ANOVA выбран.

Во-первых, это зависит от того, сбалансирован ли дизайн. В лучшем из всех возможных миров, с равным числом случаев во всех ячейках факториального плана, не будет различий из-за порядка ввода факторов в модель, независимо от того, как выполняется ANOVA. * Рассматриваемые случаи очевидно из ретроспективной клинической когорты, кажется, из реального мира, где такой баланс не был найден. Так что порядок может иметь значение.

Во-вторых, это зависит от того, как выполняется ANOVA, что является несколько спорным вопросом. Типы ANOVA для несбалансированных конструкций различаются по порядку оценки основных эффектов и взаимодействий. Оценка взаимодействий имеет основополагающее значение для двухстороннего и более высокого порядка ANOVA, поэтому существуют споры о том, как лучше поступить. См. Эту перекрестную валидированную страницу для одного объяснения и обсуждения. См. Подробности и предупреждение для функции Anova()(с заглавной буквой «А») в руководстве для carпакета для другого представления.

Порядок факторов имеет значение в несбалансированных проектах по умолчанию aov()в R, который использует так называемые тесты типа I. Это последовательные различия в факторах в порядке поступления в модель, как и предполагалось в настоящем вопросе. Порядок не имеет значения для тестов типа II или типа III, предоставляемых Anova()функцией из carпакета в R. Однако эти альтернативы имеют свои потенциальные недостатки, отмеченные в приведенных выше ссылках.

Наконец, рассмотрим отношение к множественной линейной регрессии, как lm()в R, которая по сути является моделью того же типа, если вы включите условия взаимодействия. Порядок ввода переменных в lm()не имеет значения с точки зрения коэффициентов регрессии и p- значений, о которых сообщается summary(lm()), в которых категориальный коэффициент k-уровня кодируется как (k-1) двоичных фиктивных переменных, а коэффициент регрессии сообщается для каждого фиктивного ,

Однако можно обернуть lm()вывод anova()(строчными буквами «a» из statsпакета R ) или Anova()суммировать влияние каждого фактора на все его уровни, как и ожидается в классическом ANOVA. Тогда порядок факторов будет иметь значение anova()как для aov(), так и не будет иметь значения для Anova(). Точно так же споры по поводу того, какой тип ANOVA использовать будут возвращаться. Поэтому небезопасно предполагать независимость порядка ввода факторов при всех последующих применениях lm()моделей.


* Наличие одинакового количества наблюдений во всех ячейках достаточно, но, насколько я понимаю, необязательно, чтобы порядок факторов не имел значения. Менее требовательные типы баланса могут обеспечить независимость от порядка.

магистр педагогических наук
источник
Да, эти данные наблюдений были несбалансированными, очень несбалансированными.
Фаррел
Надеемся, что этот комментарий все еще получает ответ здесь: Вы говорите, что при сбалансированном дизайне исследования оценка СС никогда не будет зависеть от порядка, независимо от выбранного типа теста на анову (тип I, II, III). Я не уверен, что понимаю это. с помощью функции 'anova' в R (которая использует тесты типа I) на линейной модели, основанной на данных, которые сбалансированы, конечно, порядок элементов имеет значение, нет?
PejoPhylo
1
@PejoPhylo, когда данные сбалансированы, вы можете получить то, что называется ортогональным дизайном. В ортогональном дизайне существует один уникальный способ распределения сумм квадратов между обработками и их взаимодействиями, поэтому порядок ввода обработок не будет иметь значения в отношении оценок эффектов и их p-значений. Эта страница содержит математическое объяснение. Это не сразу очевидно; Вопрос, который я только что связал, был задан одним из участников этого сайта с одной из самых высоких репутаций. Несбалансированные данные могут разрушить ортогональность.
EdM
Большое спасибо за ваш ответ @EdM
PejoPhylo
0

Термин иерархическая модель относится к структуре между факторами. Например, многоцентровое исследование является иерархическим: пациенты размещаются в больницах, которые их лечат. Каждая больница лечит пациентов с плацебо и verum, но получение каждого из них в больнице A или B немного отличается из-за некоторого общего эффекта от управления больницей для всех их пациентов (может даже быть эффект взаимодействия с экспериментальным агентом). Так называется иерархический эффект.

Теперь ваши методы эктомии могут быть иерархическими: возможно ли, что определенный метод тонзиллэктомии немного отличается (сам по себе, еще не в эффекте, потому что это то, что вы собираетесь оценивать и тестировать) в зависимости от метода аденоидэктомии, использованного ранее для того же самого терпеливый? Если да, вы должны указать это в вашей модели.

Ваше наблюдение, что y ~ a + b может отличаться от y ~ b + a, указывает на то, что что-то не так. Аддитивные эффекты коммутируют, поэтому не должно быть разницы (кроме небольших числовых различий). Ни правдоподобно, ни желательно, чтобы эффект от хирургических методов мог зависеть от порядка, в котором статистик позже определяет эти эффекты. Таким образом, вы, вероятно, выбрали неправильный подход к подаче Rданных.

Хорст Грюнбуш
источник
1
Я не уверен, что следую последнему абзацу. В несбалансированном факториальном ANOVA p-значения для каждого фактора, вычисленные с помощью суммы квадратов типа I (последовательной), будут определенно зависеть от порядка факторов. Я считаю, что это весь вопрос.
говорит амеба, восстанови Монику
Я не уверен, что @Farrel получил Тип I SS. Я помню, как однажды наблюдал, как SAS выводит разные SS типа III из-за некоторой несопоставимой сортировки в наборе данных и в заявлении модели. Может быть, это может произойти и с R тоже?
Хорст Грюнбуш
2
Я не могу знать наверняка, и он, возможно, не помнит себя, учитывая, что вопрос был задан пять лет назад. Но я думаю, что это , безусловно, самая экономная интерпретация его слов «модель y ~ a + b отличается от модели y ~ b + a (или, как мне кажется, моя реализация в R) указывает на это», в частности, учитывая тот факт, эта aovкоманда в R по умолчанию использует SS типа I. Когда я предложил вознаграждение, я ожидал получить ответ, объясняющий проблемы, связанные с несбалансированным дизайном ановы, различия между SS типа I / II / III и некоторые комментарии о том, имеет ли линейная регрессия те же проблемы или нет.
говорит амеба, восстанови Монику
1
Нет. Матрица дизайна в anova единственная, даже если она сбалансирована, когда нет разницы между SS I / II / III. SS I / II / III отличаются только в несбалансированном случае, потому что факторы становятся неортогональными (в отличие от сбалансированного случая). В моем понимании это соответствует линейной регрессии с коррелированными предикторами, что является очень распространенной ситуацией. Мой ответ заключается в том, что та же проблема возникает и в регрессии, просто это стандартно для вычисления p-значения одного предиктора после учета влияния всех других предикторов; это соответствует типу III SS в anova.
говорит амеба, восстанови Монику
1
Такие вопросы о переменном порядке в ANOVA продолжают поступать, как этот, перенесенный вчера из Stack Overflow. Я думаю, можно с уверенностью предположить, что этот 5-летний вопрос был аналогичным образом основан на, aovа не было lm, и было бы полезно получить ответ на этот вопрос того типа, который @amoeba указал в комментарии от 12 мая 14:31 ,
EdM