ANOVA против множественной линейной регрессии?
Я понимаю, что оба эти метода, похоже, используют одну и ту же статистическую модель. Однако при каких обстоятельствах я должен использовать какой метод?
Каковы преимущества и недостатки этих методов при сравнении?
Почему ANOVA так часто используется в экспериментальных исследованиях, а я вряд ли когда-нибудь найду регрессивное исследование?
Ответы:
Было бы интересно оценить, что расхождение происходит в типе переменных , и, в частности, в типах объясняющих переменных . В типичном ANOVA у нас есть категориальная переменная с различными группами , и мы пытаемся определить, отличается ли измерение непрерывной переменной между группами. С другой стороны, МНК обычно воспринимается как попытка оценить взаимосвязь между непрерывной регрессией или переменной ответа и одним или несколькими регрессорами или объясняющими переменными . В этом смысле регрессия может рассматриваться как другой метод, позволяющий прогнозировать значения на основе линии регрессии.
Тем не менее , это различие не распространяется на ANOVA для остальной части анализа супа дисперсионного алфавита (ANCOVA, MANOVA, MANCOVA); или включение фиктивных переменных в регрессию OLS. Мне неясно, какие именно исторические ориентиры существуют, но похоже, что оба метода выросли в параллельных адаптациях для решения все более сложных моделей.
Например, мы можем видеть, что различия между ANCOVA и OLS с фиктивными (или категориальными) переменными (в обоих случаях с взаимодействиями) в лучшем случае являются косметическими. Прошу прощения за мой уход за пределы в названии вашего вопроса, касающегося множественной линейной регрессии.
В обоих случаях, модель, по существу , совпадает с точкой R , что в функция используется для выполнения ANCOVA . Однако он может быть представлен как отличающийся в отношении включения перехвата, соответствующего первому уровню (или группе) факторной (или категориальной) переменной в регрессионной модели.
lm
Это соответствует линейной модели:
Представление той же модели в поле регрессии, и в частности в R, рассматривает общий перехват, соответствующий одной из групп, и матрица модели может быть представлена как:
уравнения МНК:
Как видно из матриц модели, представление противоречит фактической идентичности между регрессией и дисперсионным анализом.
Мне нравится в виду проверить это с помощью некоторых строк кода и моих любимых наборов данных
mtcars
в R . Я используюlm
для ANCOVA в соответствии с документом Бена Болкера, доступным здесь .Что касается части вопроса о том, какой метод использовать (регрессия с R!), Вы можете найти забавным этот онлайновый комментарий, с которым я столкнулся при написании этого поста.
источник
Регрессия ANOVA и OLS математически идентичны в тех случаях, когда ваши предикторы являются категориальными (с точки зрения выводов, которые вы извлекаете из статистики теста). Иными словами, ANOVA - это особый случай регрессии. Нет ничего, что ANOVA может сказать вам, что регрессия не может возникнуть сама по себе. Однако обратное неверно. ANOVA нельзя использовать для анализа с непрерывными переменными. Таким образом, ANOVA может быть классифицирован как более ограниченный метод. Однако регрессия не всегда так удобна для менее искушенного аналитика. Например, большинство сценариев ANOVA автоматически генерируют термины взаимодействия, где, как и в случае регрессии, вам часто приходится вручную вычислять эти термины с помощью программного обеспечения. Широкое использование ANOVA отчасти является пережитком статистического анализа до использования более мощного статистического программного обеспечения, и, на мой взгляд, более простая методика обучения неопытных студентов, чья цель - понимание относительно поверхностного уровня, которое позволит им анализировать данные с помощью базового статистического пакета. Попробуйте это когда-нибудь ... Изучите статистику t, которую выдает базовая регрессия, возведите ее в квадрат, а затем сравните с коэффициентом F из ANOVA на тех же данных. Идентичные!
источник
Основное преимущество регрессии ANOVA, на мой взгляд, заключается в выводе. Если вас интересует статистическая значимость категориальной переменной (фактора) как блока, ANOVA предоставит вам этот тест. При регрессии категориальная переменная представлена двумя или более фиктивными переменными, в зависимости от количества категорий, и, следовательно, у вас есть 2 или более статистических теста, каждый из которых сравнивает среднее значение для конкретной категории со средним значением нулевой категории (или общее среднее значение, в зависимости от метода кодирования пустышки). Ни один из них не может представлять интерес. Таким образом, вы должны выполнить анализ после оценки (по сути, ANOVA), чтобы получить общий тест интересующего вас фактора.
источник
Основным преимуществом линейной регрессии является то, что она устойчива к нарушению однородности дисперсии, когда размеры выборки по группам неодинаковы. Другое заключается в том, что это облегчает включение нескольких ковариат (хотя это также может быть легко достигнуто с помощью ANCOVA, если вы заинтересованы включить только одну ковариату). Регрессия стала широко распространенной в семидесятые годы с появлением достижений в вычислительной мощности. Вы также можете найти регрессию более удобной, если вы особенно заинтересованы в изучении различий между отдельными уровнями категориальной переменной, когда присутствует более двух уровней (при условии, что вы задали фиктивную переменную в регрессии, чтобы один из этих двух уровней представляет референтную группу).
источник