Расхождение с регрессом ANOVA (aov против lm в R)

21

У меня всегда было впечатление, что регрессия - это просто более общая форма ANOVA и результаты будут идентичны. Однако недавно я провел и регрессию, и ANOVA для одних и тех же данных, и результаты значительно различаются. То есть в регрессионной модели значимы как основные эффекты, так и взаимодействие, в то время как в ANOVA один основной эффект незначителен. Я ожидаю, что это как-то связано с взаимодействием, но мне не ясно, чем отличаются эти два способа моделирования одного и того же вопроса. Если это важно, один предиктор является категориальным, а другой - непрерывным, как показано в моделировании ниже.

Вот пример того, как мои данные выглядят и какой анализ я выполняю, но без тех же самых р-значений или эффектов, значимых для результатов (мои фактические результаты описаны выше):

group<-c(1,1,1,0,0,0)
moderator<-c(1,2,3,4,5,6)
score<-c(6,3,8,5,7,4)

summary(lm(score~group*moderator))
summary(aov(score~group*moderator))
Ребекка
источник
резюме (lm ()) дает вам коэффициенты для указанных вами контрастов, которые являются контрастами лечения при отсутствии спецификации здесь. В то время как резюме (aov ()) дает вам таблицу anova. Если вам нужна анова для модели lm, вам нужна анова (lm ())
Мэтт Альбрехт
groupчисловой вектор, это специально? Как правило, факторы группирования должны иметь класс factor, так что преобразование в контрасты может быть обработано автоматически такими функциями, как lm(). Это станет очевидным, если у вас будет более двух групп или вы используете для своей groupпеременной кодировку, отличную от 0/1 .
Каракал
См. Также stats.stackexchange.com/questions/268006/…
kjetil b halvorsen

Ответы:

17

summaryФункция вызывает различные методы в зависимости от класса объекта. Разница не в aovпротивостоянии lm, а в представленной информации о моделях. Например, если вы использовали anova(mod1)и anova(mod2)вместо этого, вы должны получить те же результаты.

Как говорит @Glen, ключевым моментом является то, основаны ли отчеты о тестах на суммах квадратов типа 1 или 3. Они будут отличаться, когда корреляция между вашими объясняющими переменными не точно равна 0. Когда они коррелируют, некоторые SS уникальны для одного предиктора, а другие - для другого, но некоторые SS можно отнести к одному или к обоим. ( Вы можете визуализировать это, представив символ MasterCard- в центре небольшая область перекрытия.) В этой ситуации нет однозначного ответа, и, к сожалению, это норма для не экспериментальных данных. Один из подходов заключается в том, что аналитик использует свое суждение и назначает перекрывающийся SS одной из переменных. Эта переменная сначала входит в модель. Другая переменная входит во вторую модель и получает SS, который выглядит как печенье с укусом. Его эффект может быть проверен тем, что иногда называют р2изменить или F изменить. Этот подход использует тип 1 SS. В качестве альтернативы, вы можете сделать это дважды с каждым входом первым и сообщить о тесте F-изменения для обоих предикторов. Таким образом, ни одна из переменных не получает SS из-за перекрытия. Этот подход использует тип 3 SS. (Я должен также сказать вам, что последний подход не принимается во внимание.)

Следуя предложению @BrettMagill в комментарии ниже, я могу попытаться сделать это немного яснее. (Обратите внимание, что в моем примере я использую только 2 предиктора и не взаимодействую, но эту идею можно расширить, чтобы включить все, что вам нравится.)

Тип 1: SS (A) и SS (B | A)

Тип 3: SS (A | B) и SS (B | A)

Gung - Восстановить Монику
источник
1
Это хорошее описание проблемы. Вы можете немного пояснить текст следующим образом: Тип I: SS_A = SS (A) SS_B = SS (B | A) и SS_AB = SS (AB | B, A) Тип III: SS_A = SS (A | B, AB ) и SS_B = SS (B | A, AB) и SS_AB = SS (AB | A, B)
Бретт
1
Большое вам спасибо за вашу помощь. Теперь я понимаю, что происходит с точки зрения различий между этими моделями, но я до сих пор не понимаю, когда было бы целесообразно использовать модель ановой или регрессионной модели. Мой советник советует anova, но меня всегда учили использовать регрессию, и я не уверен, что лучше использовать, когда результаты расходятся. Есть ли у вас какие-либо примеры или ресурсы для консультаций, когда это будет уместно? Еще раз спасибо за помощь.
Ребекка
1
Извините, я не совсем понимаю. Я хочу сказать, что модели на самом деле не отличаются. ANOVA - это регрессия со всеми качественными предикторами. Если у вас есть регрессионная модель с непрерывными и качественными предикторами, и вы сначала вводите непрерывный предиктор, то качественные предикторы (но без термина взаимодействия) - это ANCOVA. Любой подход хорош, поскольку «за кадром» они идентичны. Я обычно кодирую это как регрессию, но это вопрос стиля. OTOH, если ваш консультант хочет, чтобы он работал в стиле ANOVA, тогда идите по этому пути, так как нет никакой разницы.
gung - Восстановить Монику
2
Несколько вещей: (3) взаимодействие не означает, что ваши независимые переменные коррелируют, это просто разные вещи; (2 вверх), если модель 3 значительно лучше, чем модель 2, то да, это говорит о том, что взаимодействие является значительным (поскольку взаимодействие - единственное, что между ними отличается); (1 вверх) вы хотите избегать просто ловить значительные эффекты, если вы не думаете о своем исследовании как о пилоте, которого вы будете использовать для планирования последующего подтверждающего исследования (в этом случае я думаю, что вы в порядке); Я полагаю, что вы провели это исследование, чтобы посмотреть на все три, таким образом, перейдите к модели 3.
Gung - Восстановить Монику
2
Кроме того, взаимодействие подразумевает, что вы не должны интерпретировать основные эффекты, поэтому представление только модели 1 может быть опасным заблуждением. Если вы хотите получить больше информации о типах SS, я написал довольно полный ответ здесь: stats.stackexchange.com/questions/20452/… Кроме того, в какой-то момент вы должны принять один из ответов, нажав на флажок рядом с один из них.
gung - Восстановить Монику
10

Результаты вывода aov дают вам вероятности, основанные на сумме квадратов типа 1. Вот почему результат взаимодействия одинаков, а основные эффекты различаются.

Если вы используете вероятности, основанные на сумме квадратов типа 3, они будут соответствовать результатам линейной регрессии.

library(car)
Anova(aov(score~group*moderator),type=3)
лощина
источник
5
Линейные модели и ANOVA будут эквивалентны, когда модели проверяют одни и те же гипотезы и когда параметризация факторов эквивалентна. Так называемые суммы «Типа I» и «Типа III» являются квадратами и представляют собой просто тесты различных базовых гипотез (влияние последовательных сумм квадратов против предельных сумм квадратов). ANOVA склонна скрывать некоторые из этих решений, реализованные во многих пакетах, и это заставляет меня поверить, что на самом деле настройка и проверка интересующих гипотез с помощью параметризации факторов и сравнения моделей в GLM является превосходным подходом.
Бретт
+1, я думаю, что у вас есть опечатка, хотя. Я использую SS типа 1, а aov - SS типа 3.
gung - Восстановить Монику
2
Тип III (Marginal) Суммы квадратов по умолчанию используются в lm. AOV будет использовать тип I (последовательный) по умолчанию. Результаты LM инвариантны к порядку, а все результаты зависят от порядка факторов.
Бретт
Я думал, что и lm, и aov использовали тип I по умолчанию, следовательно, использование заглавной A Anova () для типов II и III.
Мэтт Альбрехт
6
В целом, Anova(..., type=3)вы не получите корректный SS типа III, если только вы не переключитесь с контрастов лечения (по умолчанию в R) на кодирование эффекта для неупорядоченных факторов ( options(contrasts=c("contr.sum", "contr.poly"))) или некоторых других кодов с суммированием до нуля (например, Helmert). Это станет очевидным, если у вас несбалансированные размеры ячеек и более двух групп, и это также будет упомянуто на странице справки для Anova().
Каракал
-2

Основное различие между линейной регрессией и ANOVA состоит в том, что в ANOVA переменные предиктора являются дискретными (то есть имеют разные уровни). В то время как в линейной регрессии, предикторные переменные являются непрерывными.

Вивек
источник
3
Это не совсем так.
Майкл Р. Черник
Я читал это где-то в интернете. Можете ли вы объяснить ключевую разницу. Я новичок.
Вивек