Правильно ли я понимаю, что порядок, в котором переменные указываются в многофакторном ANOVA, имеет значение, но что порядок не имеет значения при выполнении множественной линейной регрессии?
Таким образом, предполагая такой результат, как измеренная кровопотеря y
и две категориальные переменные
- метод аденоидэктомии
a
, - метод тонзиллэктомии
b
.
Модель y~a+b
отличается от модели y~b+a
(или, как мне кажется, моя реализация в R).
Правильно ли я понимаю, что термин здесь заключается в том, что ANOVA - это иерархическая модель, поскольку она сначала приписывает как можно большую дисперсию первому фактору, прежде чем пытаться приписать остаточную дисперсию второму фактору?
В приведенном выше примере иерархия имеет смысл, потому что я всегда делаю аденоидэктомию, прежде чем делать тонзиллэктомию, но что произойдет, если у одного будет две переменные без присущего порядка?
Ответы:
Этот вопрос, очевидно, возник из исследования с несбалансированным двусторонним дизайном, проанализированного в R с помощью
aov()
функции; На этой странице представлен более свежий и подробный пример этой проблемы.Общий ответ на этот вопрос, как и для многих, звучит так: «Это зависит». Здесь это зависит от того, сбалансирован ли дизайн и, если нет, какой вкус ANOVA выбран.
Во-первых, это зависит от того, сбалансирован ли дизайн. В лучшем из всех возможных миров, с равным числом случаев во всех ячейках факториального плана, не будет различий из-за порядка ввода факторов в модель, независимо от того, как выполняется ANOVA. * Рассматриваемые случаи очевидно из ретроспективной клинической когорты, кажется, из реального мира, где такой баланс не был найден. Так что порядок может иметь значение.
Во-вторых, это зависит от того, как выполняется ANOVA, что является несколько спорным вопросом. Типы ANOVA для несбалансированных конструкций различаются по порядку оценки основных эффектов и взаимодействий. Оценка взаимодействий имеет основополагающее значение для двухстороннего и более высокого порядка ANOVA, поэтому существуют споры о том, как лучше поступить. См. Эту перекрестную валидированную страницу для одного объяснения и обсуждения. См. Подробности и предупреждение для функции
Anova()
(с заглавной буквой «А») в руководстве дляcar
пакета для другого представления.Порядок факторов имеет значение в несбалансированных проектах по умолчанию
aov()
в R, который использует так называемые тесты типа I. Это последовательные различия в факторах в порядке поступления в модель, как и предполагалось в настоящем вопросе. Порядок не имеет значения для тестов типа II или типа III, предоставляемыхAnova()
функцией изcar
пакета в R. Однако эти альтернативы имеют свои потенциальные недостатки, отмеченные в приведенных выше ссылках.Наконец, рассмотрим отношение к множественной линейной регрессии, как
lm()
в R, которая по сути является моделью того же типа, если вы включите условия взаимодействия. Порядок ввода переменных вlm()
не имеет значения с точки зрения коэффициентов регрессии и p- значений, о которых сообщаетсяsummary(lm())
, в которых категориальный коэффициент k-уровня кодируется как (k-1) двоичных фиктивных переменных, а коэффициент регрессии сообщается для каждого фиктивного ,Однако можно обернуть
lm()
выводanova()
(строчными буквами «a» изstats
пакета R ) илиAnova()
суммировать влияние каждого фактора на все его уровни, как и ожидается в классическом ANOVA. Тогда порядок факторов будет иметь значениеanova()
как дляaov()
, так и не будет иметь значения дляAnova()
. Точно так же споры по поводу того, какой тип ANOVA использовать будут возвращаться. Поэтому небезопасно предполагать независимость порядка ввода факторов при всех последующих примененияхlm()
моделей.* Наличие одинакового количества наблюдений во всех ячейках достаточно, но, насколько я понимаю, необязательно, чтобы порядок факторов не имел значения. Менее требовательные типы баланса могут обеспечить независимость от порядка.
источник
Термин иерархическая модель относится к структуре между факторами. Например, многоцентровое исследование является иерархическим: пациенты размещаются в больницах, которые их лечат. Каждая больница лечит пациентов с плацебо и verum, но получение каждого из них в больнице A или B немного отличается из-за некоторого общего эффекта от управления больницей для всех их пациентов (может даже быть эффект взаимодействия с экспериментальным агентом). Так называется иерархический эффект.
Теперь ваши методы эктомии могут быть иерархическими: возможно ли, что определенный метод тонзиллэктомии немного отличается (сам по себе, еще не в эффекте, потому что это то, что вы собираетесь оценивать и тестировать) в зависимости от метода аденоидэктомии, использованного ранее для того же самого терпеливый? Если да, вы должны указать это в вашей модели.
Ваше наблюдение, что y ~ a + b может отличаться от y ~ b + a, указывает на то, что что-то не так. Аддитивные эффекты коммутируют, поэтому не должно быть разницы (кроме небольших числовых различий). Ни правдоподобно, ни желательно, чтобы эффект от хирургических методов мог зависеть от порядка, в котором статистик позже определяет эти эффекты. Таким образом, вы, вероятно, выбрали неправильный подход к подаче
R
данных.источник
aov
команда в R по умолчанию использует SS типа I. Когда я предложил вознаграждение, я ожидал получить ответ, объясняющий проблемы, связанные с несбалансированным дизайном ановы, различия между SS типа I / II / III и некоторые комментарии о том, имеет ли линейная регрессия те же проблемы или нет.aov
а не былоlm
, и было бы полезно получить ответ на этот вопрос того типа, который @amoeba указал в комментарии от 12 мая 14:31 ,