Почему ANOVA преподается / используется так, как если бы это была другая методология исследования по сравнению с линейной регрессией?

91

ANOVA эквивалентен линейной регрессии с использованием подходящих фиктивных переменных. Выводы остаются неизменными независимо от того, используете ли вы ANOVA или линейную регрессию.

В свете их эквивалентности, есть ли причина, по которой ANOVA используется вместо линейной регрессии?

Примечание: мне особенно интересно узнать о технических причинах использования ANOVA вместо линейной регрессии.

редактировать

Вот один пример использования одностороннего ANOVA. Предположим, вы хотите знать, одинаковый ли средний рост мужчин и женщин. Чтобы проверить свою гипотезу, вы должны собрать данные из случайной выборки мужчин и женщин (скажем, по 30) и выполнить анализ ANOVA (т. Е. Сумму квадратов для пола и ошибки), чтобы определить, существует ли эффект.

Вы также можете использовать линейную регрессию, чтобы проверить это следующим образом:

Определите: если респондентом является мужчина, и противном случае. где:0 Рост = Перехват + β Пол + ошибка ошибка N ( 0 , σ 2 )Gender=10

Height=Intercept+βGender+error
errorN(0,σ2)

Затем проверьте, является ли эквивалентным тестом для вашей гипотезы.β=0

Gung - Восстановить Монику
источник
2
Если я не ошибаюсь, линейная регрессия - это оценка коэффициентов, которые определяют хорошую линейную карту от X до Y. ANOVA - это тест, чтобы узнать, есть ли существенные различия в X, когда Y принимает два разных значения. Можете ли вы объяснить нам, почему вы думаете, что они одинаковы?
Робин Жирар
28
ANOVA можно рассматривать как «синтаксический сахар» для специальной подгруппы моделей линейной регрессии. ANOVA регулярно используется исследователями, которые не являются статистиками по образованию. Теперь они «институционализированы», и их трудно преобразовать обратно в более общее представление ;-)
suncoolsu
3
Upvoted ваш комментарий, но экспериментаторы даже безумнее, чем я думал, если это синтаксический сахар для них! Какая версия более интуитивна ... Тест гипотезы ANOVA на : достаточно ли велико отношение объясненной дисперсии к необъяснимой дисперсии? T-тест на член регрессионной модели: достаточно ли отличается эффект от нуля? И с последней формулировкой вы также получаете направление изменения. И, если вам нужно было преобразовать данные, вы можете обратно преобразовать оценку параметра в физически значимую величину. В отличие от СС. β ββββ
f1r3br4nd

Ответы:

55

Как экономист, дисперсионный анализ (ANOVA) преподается и обычно понимается в связи с линейной регрессией (например, в « Курсе эконометрики» Артура Голдбергера ). Экономисты / эконометрики обычно считают ANOVA неинтересной и предпочитают переходить прямо к регрессионным моделям. С точки зрения линейных (или даже обобщенно линейных) моделей ANOVA назначает коэффициенты в партии, причем каждая партия соответствует «источнику вариации» в терминологии ANOVA.

Как правило, вы можете повторить выводы, которые вы получите от ANOVA, используя регрессию, но не всегда регрессию OLS. Многоуровневые модели необходимы для анализа иерархических структур данных, таких как «сплит-планы», где межгрупповые эффекты сравниваются с ошибками на уровне группы, а внутригрупповые эффекты сравниваются с ошибками на уровне данных. В статье Гельмана [1] подробно рассказывается об этой проблеме и фактически утверждается, что ANOVA является важным статистическим инструментом, который все еще следует изучать ради него самого.

В частности, Гельман утверждает, что ANOVA - это способ понимания и структурирования многоуровневых моделей. Поэтому ANOVA является не альтернативой регрессии, а инструментом для обобщения сложных многомерных выводов и для анализа поисковых данных.

Гельман является уважаемым статистиком, и его мнению следует уделить некоторое доверие. Тем не менее, почти вся эмпирическая работа, которую я выполняю, будет одинаково хорошо справляться с линейной регрессией, и поэтому я твердо впадаю в лагерь, считая ее немного бессмысленной. Некоторые дисциплины со сложным дизайном обучения (например, психология) могут найти ANOVA полезным.

[1] Гельман А. (2005). Дисперсионный анализ: почему это важнее, чем когда-либо (с обсуждением). Летопись статистики 33, 1–53. DOI: 10,1214 / 009053604000001048

Грэм Куксон
источник
1
Спасибо за ссылку Гельмана. Я прочитаю его газету. Но разве мы не можем анализировать многоуровневые модели, используя классическую максимальную вероятность? Я согласен, что OLS неэффективен / не подходит для многоуровневых моделей.
3
@Srikant - есть много способов справиться с многоуровневыми данными, и Гельман является «королем» в этой области. Его точка зрения заключается в том, что ANOVA - это простой / понятный метод определения ключевых особенностей сложных и иерархических структур данных или схем исследования, а ANOVA - простой / понятный способ представления ключевых результатов. В этом смысле его роль является дополнительной или исследовательской.
Грэм Куксон
1
+1 за хороший четкий ответ. Параграф 3 - это, по сути, то, чему меня учили как студента-биолога, с упором на простоту объединения непрерывных и категориальных независимых переменных в рамках ANOVA.
Фрейя Харрисон
23

Я думаю, что второй абзац Грэма попадает в суть дела. Я подозреваю, что это не столько технический, сколько исторический, вероятно, из-за влияния « Статистических методов для научных работников », а также из-за простоты преподавания / применения инструмента для нестатистов в экспериментальном анализе, включающем дискретные факторы, а не в углублении в построение моделей. и связанные инструменты. В статистике ANOVA обычно преподносится как частный случай регрессии. (Я думаю, что это похоже на то, почему биостатистика наполнена множеством одноименных «тестов», а не подчеркивает построение модели.)

АРС
источник
14

Я бы сказал, что некоторые из вас используют термин регрессия, когда вам следует использовать общую линейную модель. Я думаю о регрессии как о glm, который включает непрерывные ковариаты. Когда непрерывные ковариаты объединяются с фиктивными переменными, это следует называть анализом ковариации. Если используются только фиктивные переменные, мы называем эту особую форму glm анализом дисперсии. Я думаю, что у дисперсионного анализа есть отдельное второе значение, как у процедуры тестирования на значимые коэффициенты в glm, используя разложение дисперсии на компоненты термина модели и компонент термина ошибки.

Майкл Черник
источник
2
(+1) Я также сразу отметил неоднозначную терминологию «регрессия» на протяжении всего обсуждения.
Стефан Лоран
1
(+1) GLM может быть лучшим способом распутать разные значения. Следует также отметить, что в истории ANOVA использовались процедуры расчета, которые затемняют отношения между OLS и ANOVA. Следовательно, номенклатура может быть обоснована историческими причинами.
Янв
10

ANOVA может использоваться с категориальными пояснительными переменными (факторами), которые принимают более 2 значений (уровней), и дает базовый тест на то, что средний ответ одинаков для каждого значения. Это позволяет избежать проблемы регрессии при переносе нескольких парных t-тестов между этими уровнями:

  • Множественные t-тесты с фиксированным 5% уровнем значимости позволят примерно 5% из них дать неверные результаты.
  • Эти тесты не зависят друг от друга. Сравнение уровней A с B связано с сопоставлением уровней A с C, так как данные A используются в обоих тестах.

Лучше использовать контрасты для разных комбинаций на уровнях факторов, которые вы хотите протестировать.

Ηλίας
источник
1
Вы можете уточнить этот ответ; как написано, я вижу 3 вопроса. Первые 2 немного придирчивы, но все еще должны быть отредактированы, третий является существенным в контексте этого обсуждения. (1) ANOVA можно использовать только с 2 группами (хотя большинство людей тогда просто проводят t-тест). (2) множественные t-тесты w / будут асимптотически приводить к ошибкам типа I для 5% тех контрастов, где фактическая разница отсутствует ; Сколько ошибок произойдет, зависит от того, сколько пустых значений истинно. α=.05
gung - Восстановить Монику
7
(3) ваш ответ подразумевает, что проблема множественных сравнений относится к регрессии МНК, чего не происходит при правильном проведении. Надлежащим способом проверки фактора в контексте регрессии является тестирование вложенной модели, в которой все макеты фактора отбрасываются по сравнению с полной моделью, включая все макеты фактора. Этот тест идентичен тому, который проводит ANOVA. Это правда, что вы не должны использовать тесты отдельных фиктивных переменных (я подозреваю, что вы пытаетесь описать здесь).
gung - Восстановить Монику
3

ANOVA вы проверяете, есть ли значительная разница между популяционными средствами, если вы сравниваете более двух популяционных средств, тогда вы собираетесь использовать F-тест.

В регрессионном анализе вы строите модель между независимыми переменными и зависимой переменной. Если у вас есть одна независимая переменная с четырьмя уровнями, вы можете использовать три фиктивные переменные и запустить модель регрессии. F-тест для регрессионной модели, который используется для проверки значимости регрессионной модели, такой же, как F, который вы получаете при тестировании на разницу между средними значениями. Если вы выполните пошаговую регрессию, то некоторые фиктивные переменные могут быть исключены из модели, и ваше F-значение будет отличаться от значения при выполнении теста ANOVA.

Джамал
источник
5
Это делает ANOVA процедурой тестирования, а регрессию - процедурой моделирования, в которой вы можете проводить тесты. Но ANOVA также имеет базовую модель, независимо от того, подчеркивается ли это во всех вводных методах лечения. Таким образом, этот ответ не отражает никакой разницы между ними. Это также не рассматривается в вопросе, поэтому они преподаются как разные, несмотря на сильное сходство.
Ник Кокс