У меня всегда было впечатление, что регрессия - это просто более общая форма ANOVA и результаты будут идентичны. Однако недавно я провел и регрессию, и ANOVA для одних и тех же данных, и результаты значительно различаются. То есть в регрессионной модели значимы как основные эффекты, так и взаимодействие, в то время как в ANOVA один основной эффект незначителен. Я ожидаю, что это как-то связано с взаимодействием, но мне не ясно, чем отличаются эти два способа моделирования одного и того же вопроса. Если это важно, один предиктор является категориальным, а другой - непрерывным, как показано в моделировании ниже.
Вот пример того, как мои данные выглядят и какой анализ я выполняю, но без тех же самых р-значений или эффектов, значимых для результатов (мои фактические результаты описаны выше):
group<-c(1,1,1,0,0,0)
moderator<-c(1,2,3,4,5,6)
score<-c(6,3,8,5,7,4)
summary(lm(score~group*moderator))
summary(aov(score~group*moderator))
источник
group
числовой вектор, это специально? Как правило, факторы группирования должны иметь классfactor
, так что преобразование в контрасты может быть обработано автоматически такими функциями, какlm()
. Это станет очевидным, если у вас будет более двух групп или вы используете для своейgroup
переменной кодировку, отличную от 0/1 .Ответы:
summary
Функция вызывает различные методы в зависимости от класса объекта. Разница не вaov
противостоянииlm
, а в представленной информации о моделях. Например, если вы использовалиanova(mod1)
иanova(mod2)
вместо этого, вы должны получить те же результаты.Как говорит @Glen, ключевым моментом является то, основаны ли отчеты о тестах на суммах квадратов типа 1 или 3. Они будут отличаться, когда корреляция между вашими объясняющими переменными не точно равна 0. Когда они коррелируют, некоторые SS уникальны для одного предиктора, а другие - для другого, но некоторые SS можно отнести к одному или к обоим. ( Вы можете визуализировать это, представив символ MasterCard- в центре небольшая область перекрытия.) В этой ситуации нет однозначного ответа, и, к сожалению, это норма для не экспериментальных данных. Один из подходов заключается в том, что аналитик использует свое суждение и назначает перекрывающийся SS одной из переменных. Эта переменная сначала входит в модель. Другая переменная входит во вторую модель и получает SS, который выглядит как печенье с укусом. Его эффект может быть проверен тем, что иногда называютр2 изменить или F изменить. Этот подход использует тип 1 SS. В качестве альтернативы, вы можете сделать это дважды с каждым входом первым и сообщить о тесте F-изменения для обоих предикторов. Таким образом, ни одна из переменных не получает SS из-за перекрытия. Этот подход использует тип 3 SS. (Я должен также сказать вам, что последний подход не принимается во внимание.)
Следуя предложению @BrettMagill в комментарии ниже, я могу попытаться сделать это немного яснее. (Обратите внимание, что в моем примере я использую только 2 предиктора и не взаимодействую, но эту идею можно расширить, чтобы включить все, что вам нравится.)
Тип 1: SS (A) и SS (B | A)
Тип 3: SS (A | B) и SS (B | A)
источник
Результаты вывода aov дают вам вероятности, основанные на сумме квадратов типа 1. Вот почему результат взаимодействия одинаков, а основные эффекты различаются.
Если вы используете вероятности, основанные на сумме квадратов типа 3, они будут соответствовать результатам линейной регрессии.
источник
Anova(..., type=3)
вы не получите корректный SS типа III, если только вы не переключитесь с контрастов лечения (по умолчанию в R) на кодирование эффекта для неупорядоченных факторов (options(contrasts=c("contr.sum", "contr.poly"))
) или некоторых других кодов с суммированием до нуля (например, Helmert). Это станет очевидным, если у вас несбалансированные размеры ячеек и более двух групп, и это также будет упомянуто на странице справки дляAnova()
.Основное различие между линейной регрессией и ANOVA состоит в том, что в ANOVA переменные предиктора являются дискретными (то есть имеют разные уровни). В то время как в линейной регрессии, предикторные переменные являются непрерывными.
источник