ANOVA эквивалентен линейной регрессии с использованием подходящих фиктивных переменных. Выводы остаются неизменными независимо от того, используете ли вы ANOVA или линейную регрессию.
В свете их эквивалентности, есть ли причина, по которой ANOVA используется вместо линейной регрессии?
Примечание: мне особенно интересно узнать о технических причинах использования ANOVA вместо линейной регрессии.
редактировать
Вот один пример использования одностороннего ANOVA. Предположим, вы хотите знать, одинаковый ли средний рост мужчин и женщин. Чтобы проверить свою гипотезу, вы должны собрать данные из случайной выборки мужчин и женщин (скажем, по 30) и выполнить анализ ANOVA (т. Е. Сумму квадратов для пола и ошибки), чтобы определить, существует ли эффект.
Вы также можете использовать линейную регрессию, чтобы проверить это следующим образом:
Определите: если респондентом является мужчина, и противном случае. где:0 Рост = Перехват + β ∗ Пол + ошибка ошибка ∼ N ( 0 , σ 2 )
Затем проверьте, является ли эквивалентным тестом для вашей гипотезы.
источник
Ответы:
Как экономист, дисперсионный анализ (ANOVA) преподается и обычно понимается в связи с линейной регрессией (например, в « Курсе эконометрики» Артура Голдбергера ). Экономисты / эконометрики обычно считают ANOVA неинтересной и предпочитают переходить прямо к регрессионным моделям. С точки зрения линейных (или даже обобщенно линейных) моделей ANOVA назначает коэффициенты в партии, причем каждая партия соответствует «источнику вариации» в терминологии ANOVA.
Как правило, вы можете повторить выводы, которые вы получите от ANOVA, используя регрессию, но не всегда регрессию OLS. Многоуровневые модели необходимы для анализа иерархических структур данных, таких как «сплит-планы», где межгрупповые эффекты сравниваются с ошибками на уровне группы, а внутригрупповые эффекты сравниваются с ошибками на уровне данных. В статье Гельмана [1] подробно рассказывается об этой проблеме и фактически утверждается, что ANOVA является важным статистическим инструментом, который все еще следует изучать ради него самого.
В частности, Гельман утверждает, что ANOVA - это способ понимания и структурирования многоуровневых моделей. Поэтому ANOVA является не альтернативой регрессии, а инструментом для обобщения сложных многомерных выводов и для анализа поисковых данных.
Гельман является уважаемым статистиком, и его мнению следует уделить некоторое доверие. Тем не менее, почти вся эмпирическая работа, которую я выполняю, будет одинаково хорошо справляться с линейной регрессией, и поэтому я твердо впадаю в лагерь, считая ее немного бессмысленной. Некоторые дисциплины со сложным дизайном обучения (например, психология) могут найти ANOVA полезным.
[1] Гельман А. (2005). Дисперсионный анализ: почему это важнее, чем когда-либо (с обсуждением). Летопись статистики 33, 1–53. DOI: 10,1214 / 009053604000001048
источник
Я думаю, что второй абзац Грэма попадает в суть дела. Я подозреваю, что это не столько технический, сколько исторический, вероятно, из-за влияния « Статистических методов для научных работников », а также из-за простоты преподавания / применения инструмента для нестатистов в экспериментальном анализе, включающем дискретные факторы, а не в углублении в построение моделей. и связанные инструменты. В статистике ANOVA обычно преподносится как частный случай регрессии. (Я думаю, что это похоже на то, почему биостатистика наполнена множеством одноименных «тестов», а не подчеркивает построение модели.)
источник
Я бы сказал, что некоторые из вас используют термин регрессия, когда вам следует использовать общую линейную модель. Я думаю о регрессии как о glm, который включает непрерывные ковариаты. Когда непрерывные ковариаты объединяются с фиктивными переменными, это следует называть анализом ковариации. Если используются только фиктивные переменные, мы называем эту особую форму glm анализом дисперсии. Я думаю, что у дисперсионного анализа есть отдельное второе значение, как у процедуры тестирования на значимые коэффициенты в glm, используя разложение дисперсии на компоненты термина модели и компонент термина ошибки.
источник
ANOVA может использоваться с категориальными пояснительными переменными (факторами), которые принимают более 2 значений (уровней), и дает базовый тест на то, что средний ответ одинаков для каждого значения. Это позволяет избежать проблемы регрессии при переносе нескольких парных t-тестов между этими уровнями:
Лучше использовать контрасты для разных комбинаций на уровнях факторов, которые вы хотите протестировать.
источник
ANOVA вы проверяете, есть ли значительная разница между популяционными средствами, если вы сравниваете более двух популяционных средств, тогда вы собираетесь использовать F-тест.
В регрессионном анализе вы строите модель между независимыми переменными и зависимой переменной. Если у вас есть одна независимая переменная с четырьмя уровнями, вы можете использовать три фиктивные переменные и запустить модель регрессии. F-тест для регрессионной модели, который используется для проверки значимости регрессионной модели, такой же, как F, который вы получаете при тестировании на разницу между средними значениями. Если вы выполните пошаговую регрессию, то некоторые фиктивные переменные могут быть исключены из модели, и ваше F-значение будет отличаться от значения при выполнении теста ANOVA.
источник