ANOVA против множественной линейной регрессии? Почему ANOVA так часто используется в экспериментальных исследованиях?

24

ANOVA против множественной линейной регрессии?

Я понимаю, что оба эти метода, похоже, используют одну и ту же статистическую модель. Однако при каких обстоятельствах я должен использовать какой метод?

Каковы преимущества и недостатки этих методов при сравнении?

Почему ANOVA так часто используется в экспериментальных исследованиях, а я вряд ли когда-нибудь найду регрессивное исследование?

Флориан
источник
5
Поскольку оба используют одну и ту же модель, не имеет значения, какую вы используете.
Питер Флом - Восстановить Монику
3
Я называю это регрессией, когда я сравниваю наклоны, то есть непрерывные переменные предиктора, и ANOVA, когда я сравниваю средние значения, то есть категориальные переменные предиктора. Причина, по которой вы находите ANOVA больше в экспериментальных исследованиях, заключается в том, что они в основном сравнивают средства или уровни обработки, например, сравнивают различные удобрения на рост растений. Но, как уже сказал @PeterFlom, обе используют одну и ту же модель, и не имеет значения, какую вы используете - единственное, что выглядит по-разному, это вывод, который они вам дают, и в зависимости от вашего вопроса вы хотите либо вывод «регрессии», либо "ANOVA" выход.
Стефан
2
Хм, но вы могли бы также включить в регрессию категориальные предикторы с помощью фиктивного кодирования?
Флориан
Да, конечно!
Стефан
4
Ваш вопрос очень актуален и неоднократно рассматривался с разных точек зрения на резюме. Двойная природа этих тестов вызывает недоумение. Легко сказать, что ANOVA = линейная регрессия, и я думаю, что все комментарии, сделанные до сих пор, являются полезными и точными, но реальность немного более тонкая и трудная для понимания, особенно если включить ANCOVA под эгидой анализа дисперсия. Проверьте другие записи, такие как эта . Мне +1 твой вопрос, хотя, строго говоря, это дубликат. Можешь дать бывшего?
Антони Пареллада

Ответы:

22

Было бы интересно оценить, что расхождение происходит в типе переменных , и, в частности, в типах объясняющих переменных . В типичном ANOVA у нас есть категориальная переменная с различными группами , и мы пытаемся определить, отличается ли измерение непрерывной переменной между группами. С другой стороны, МНК обычно воспринимается как попытка оценить взаимосвязь между непрерывной регрессией или переменной ответа и одним или несколькими регрессорами или объясняющими переменными . В этом смысле регрессия может рассматриваться как другой метод, позволяющий прогнозировать значения на основе линии регрессии.

Тем не менее , это различие не распространяется на ANOVA для остальной части анализа супа дисперсионного алфавита (ANCOVA, MANOVA, MANCOVA); или включение фиктивных переменных в регрессию OLS. Мне неясно, какие именно исторические ориентиры существуют, но похоже, что оба метода выросли в параллельных адаптациях для решения все более сложных моделей.

Например, мы можем видеть, что различия между ANCOVA и OLS с фиктивными (или категориальными) переменными (в обоих случаях с взаимодействиями) в лучшем случае являются косметическими. Прошу прощения за мой уход за пределы в названии вашего вопроса, касающегося множественной линейной регрессии.

В обоих случаях, модель, по существу , совпадает с точкой R , что в функция используется для выполнения ANCOVA . Однако он может быть представлен как отличающийся в отношении включения перехвата, соответствующего первому уровню (или группе) факторной (или категориальной) переменной в регрессионной модели.lm

in1,2,i

X=[1n100xn10001n200xn20001n300xn3]

3

Это соответствует линейной модели:

y=αi+β1xn1+β2xn2+β3xn3+ϵi
αiβ

Представление той же модели в поле регрессии, и в частности в R, рассматривает общий перехват, соответствующий одной из групп, и матрица модели может быть представлена ​​как:

X=[00000J3n,11n20x0xn2001n300xn3]

уравнения МНК:

y=β0+μi+β1xn1+β2xn2+β3xn3+ϵi

β0μi

Как видно из матриц модели, представление противоречит фактической идентичности между регрессией и дисперсионным анализом.

Мне нравится в виду проверить это с помощью некоторых строк кода и моих любимых наборов данных mtcarsв R . Я использую lmдля ANCOVA в соответствии с документом Бена Болкера, доступным здесь .

mtcars$cyl <- as.factor(mtcars$cyl)         # Cylinders variable into factor w 3 levels
D <- mtcars  # The data set will be called D.
D <- D[order(D$cyl, decreasing = FALSE),]   # Ordering obs. for block matrices.

model.matrix(lm(mpg ~ wt * cyl, D))         # This is the model matrix for ANCOVA

Что касается части вопроса о том, какой метод использовать (регрессия с R!), Вы можете найти забавным этот онлайновый комментарий, с которым я столкнулся при написании этого поста.

Антони Пареллада
источник
1
Спасибо за этот чрезвычайно полезный комментарий ... Цитата из комментария, который вы связали: «Используйте регрессию, если вы не уверены, что независимые категориальные переменные вообще имеют какой-либо эффект. Используйте ANOVA, когда вы хотите увидеть, имеют ли определенные категории разные эффекты. «. Так почему же во многих экспериментальных исследованиях используется ANOVA? Из моего понимания регрессия будет правильным выбором. Являются ли исследователи слишком убежденными в том, что эффекты существуют, и только ищут способы статистически «доказать» их?
Флориан
Не могли бы вы привести практический пример, где следует использовать aov over регрессию и объяснить, почему? Спасибо за ваше время. Я также психолог по образованию и не вижу преимуществ Anova за исключением того, что, вероятно, опубликовано легче.
Флориан
При удаче? Я был бы очень заинтересован в какой-либо более конкретной эвристике в пользу любого типа процедуры, поэтому, пожалуйста, поделитесь, если найдете ответ.
Антони Пареллада
К сожалению, пока нет новых открытий в моем путешествии в статистику ... буду держать вас в курсе, больше информации приветствуется.
Флориан
У меня возникают трудности с пониманием матрицы модели OLS и соответствующего уравнения здесь. Я не понимаю, откуда берется нулевой столбец (5-й столбец матрицы). Кроме того, я думаю, что уравнение должно соответствовать столбцам (т. Е. Mu_i должно быть только для двух групп, а переменная x должна быть включена без взаимодействия с манекеном группы). Дополнительные разъяснения очень ценятся!
Ник
4

Регрессия ANOVA и OLS математически идентичны в тех случаях, когда ваши предикторы являются категориальными (с точки зрения выводов, которые вы извлекаете из статистики теста). Иными словами, ANOVA - это особый случай регрессии. Нет ничего, что ANOVA может сказать вам, что регрессия не может возникнуть сама по себе. Однако обратное неверно. ANOVA нельзя использовать для анализа с непрерывными переменными. Таким образом, ANOVA может быть классифицирован как более ограниченный метод. Однако регрессия не всегда так удобна для менее искушенного аналитика. Например, большинство сценариев ANOVA автоматически генерируют термины взаимодействия, где, как и в случае регрессии, вам часто приходится вручную вычислять эти термины с помощью программного обеспечения. Широкое использование ANOVA отчасти является пережитком статистического анализа до использования более мощного статистического программного обеспечения, и, на мой взгляд, более простая методика обучения неопытных студентов, чья цель - понимание относительно поверхностного уровня, которое позволит им анализировать данные с помощью базового статистического пакета. Попробуйте это когда-нибудь ... Изучите статистику t, которую выдает базовая регрессия, возведите ее в квадрат, а затем сравните с коэффициентом F из ANOVA на тех же данных. Идентичные!

Майкл Мелвилл
источник
Это неправда.
Майкл Р. Черник
4
@MichaelChernick Не могли бы вы уточнить, какое из многих утверждений, сделанных в этом ответе, вы считаете неправдой? Хотя он занимает некоторые крайние позиции, трудно найти ложные.
whuber
Я возразил против утверждения, что регрессия ANOVA и OLS математически идентична. Я признаю, что ANOVA можно рассматривать как регрессию в форме общей линейной модели, которая может быть сформулирована как регрессия.
Майкл Р. Черник
В случае OLS, как они не идентичны, кроме выхода? Базовая модель одинакова, остатки одинаковы, p-значения, которые они производят, одинаковы. Это выход, который отличается.
dbwilson
2

Основное преимущество регрессии ANOVA, на мой взгляд, заключается в выводе. Если вас интересует статистическая значимость категориальной переменной (фактора) как блока, ANOVA предоставит вам этот тест. При регрессии категориальная переменная представлена ​​двумя или более фиктивными переменными, в зависимости от количества категорий, и, следовательно, у вас есть 2 или более статистических теста, каждый из которых сравнивает среднее значение для конкретной категории со средним значением нулевой категории (или общее среднее значение, в зависимости от метода кодирования пустышки). Ни один из них не может представлять интерес. Таким образом, вы должны выполнить анализ после оценки (по сути, ANOVA), чтобы получить общий тест интересующего вас фактора.

dbwilson
источник
На самом деле это не так. Если вы выполняете тест отношения правдоподобия, вы тестируете весь категориальный фактор как блок в регрессионной модели.
Дан Чалтиэль
Ваш комментарий не противоречит тому, что я сказал. Упомянутый вами критерий отношения правдоподобия будет представлять собой анализ коэффициента после оценки, сравнивающий модель с фактором с моделью без.
dbwilson
Если вы выполните ANOVA, вы получите pvalue для «категориальной переменной (фактора) как блока», как и регрессия с LRT. Регрессия может предоставить вам несколько бета-тестов, но не будет выполнять больше тестов, чем ANOVA, поэтому ваше утверждение «следовательно, у вас есть 2 или более статистических теста» кажется мне неправильным. Почему LRT будет более «постоценочным», чем ANOVA?
Дэн Чалтиэль
1

Основным преимуществом линейной регрессии является то, что она устойчива к нарушению однородности дисперсии, когда размеры выборки по группам неодинаковы. Другое заключается в том, что это облегчает включение нескольких ковариат (хотя это также может быть легко достигнуто с помощью ANCOVA, если вы заинтересованы включить только одну ковариату). Регрессия стала широко распространенной в семидесятые годы с появлением достижений в вычислительной мощности. Вы также можете найти регрессию более удобной, если вы особенно заинтересованы в изучении различий между отдельными уровнями категориальной переменной, когда присутствует более двух уровней (при условии, что вы задали фиктивную переменную в регрессии, чтобы один из этих двух уровней представляет референтную группу).

Дэвид Б
источник
1
Как указано в другом ответе, ANOVA является множественной регрессией.
gung - Восстановить Монику
Спасибо, так в чем же преимущества Anova? Почему вы используете Anova / Ancova поверх регрессионной модели?
Флориан
У меня есть вопрос здесь. Почему вы объяснили «только одну ковариату», объясняя полезность ANCOVA? Это потому, что вы можете включить только один ковариат в ANCOVA?
Кевин Кан