До сих пор я видел, как ANOVA используется двумя способами:
Во-первых , в моем вводном тексте статистики ANOVA был представлен как способ сравнения средних трех или более групп, как улучшение по сравнению с парным сравнением, чтобы определить, имеет ли одно из средств статистически значимое различие.
Во-вторых , в моем статистическом учебном тексте я видел, как ANOVA сравнивал две (или более) вложенные модели, чтобы определить, соответствует ли Модель 1, которая использует подмножество предикторов Модели 2, одинаково хорошо подходит для данных, или если полная Модель 2 выше.
Теперь я предполагаю, что так или иначе эти две вещи на самом деле очень похожи, потому что они оба используют тест ANOVA, но на первый взгляд они кажутся мне совершенно разными. Для одного первое использование сравнивает три или более групп, в то время как второй метод может использоваться для сравнения только двух моделей. Кто-нибудь, пожалуйста, не возражаете, объясняя связь между этими двумя видами использования?
anova()
функция, потому что первая, реальная, ANOVA также использует F-тест. Это приводит к путанице в терминологии.anova()
функция может делать больше, чем просто ANOVA. Этот пост подтверждает ваш вывод: stackoverflow.com/questions/20128781/f-test-for-two-models-in-rОтветы:
В моем понимании абстрактная интуиция ANOVA заключается в следующем: каждый разлагает источники дисперсии наблюдаемой переменной в различных направлениях и исследует соответствующие вклады. Чтобы быть более точным, каждый разлагает карту идентичности на сумму проекций и исследует, какие проекции / направления вносят важный вклад в объяснение отклонений, а какие нет. Теоретической основой является теорема Кохрана .
Чтобы быть менее абстрактным, я приведу вторую форму, упомянутую ОП, в только что описанную структуру. Впоследствии я интерпретирую первую форму как частный случай второй.
Давайте рассмотрим регрессионную модель с объясняющими переменными (полная модель) и сравним ее с ограниченной моделью с K - J переменными. WLOG, последние переменные J полной модели не включены в ограниченную модель. Ответ на вопрос ANOVAК К-J J
«Можем ли мы объяснить значительно большую дисперсию наблюдаемой переменной, если мы включим дополнительных переменных»J ?
Ответ на этот вопрос заключается в сравнении дисперсионных вкладов первых переменных , следующих переменных J и остальной / необъяснимой части (остаточная сумма квадратов). Это разложение (полученное, например, из теоремы Кохрана) используется для построения F-теста. Таким образом, анализируется уменьшение (путем включения большего количества переменных) в остаточную сумму квадратов ограниченной модели (что соответствует H 0 : все коэффициенты, относящиеся к последним J переменным, равны нулю ) путем включения большего количества переменных и получения F-статистики. R S S г е сек т г - РК- J J ЧАС0: J
Если значение достаточно велико, тогда разница, объясняемая дополнительнымиJ-переменными, является существенной.
Теперь первая форма, упомянутая ОП , интерпретируется как частный случай второй формы . Рассмотрим три различные группы А, В и С со средствами , μ B и μ C . Н 0 : μ = μ B = μ С проверяется путем сравнения дисперсии объясняется регрессией на перехвата (Ограниченная модель) с дисперсией объясняется полной модели , содержащей свободный член, манекен для группы А, а пустышка для группы B. Результирующая F-статистика R S S i n tμA μВ μС ЧАС0: μA= μВ= μС эквивалентно тесту ANOVA вВикипедии. Знаменатель равен вариации внутри групп, числитель равен вариации между группами. Если вариация между группами больше, чем вариация внутри групп, отвергается гипотеза о том, что все средства равны.
источник
Если вы выполняете односторонний анализ ANOVA для проверки существенной разницы между группами, то неявно вы сравниваете две вложенные модели (поэтому существует только один уровень вложенности, но он все еще остается вложенным).
Эти две модели:
Модель 1: значения моделируются с помощью оценочных средних групп.
Пример сравнения средних значений и эквивалентности с вложенными моделями: давайте возьмем длину чашелистика (см) из набора данных радужной оболочки (если мы используем все четыре переменные, мы фактически могли бы использовать LDA или MANOVA, как это сделал Фишер в 1936 году)
Наблюдаемые итоговые и групповые средние значения:
Который находится в модельной форме:
И таблица ANOVA будет похожа (и неявно вычислит разницу, которая является суммой квадратов между группами, которая равна 63.212 в таблице с 2 степенями свободы):
Набор данных, использованный в примере:
Длина лепестка (см) для трех разных видов ирисов
источник
Использование ANOVA в сравнении между несколькими моделями означает проверку того, существенно ли отличается от нуля хотя бы один из коэффициентов, используемых в модели с более высоким порядком (и отсутствует в модели с более низким порядком).
Это равносильно тому, что сумма остатков для модели более высокого порядка значительно меньше, чем у модели более низкого порядка.
Речь идет о двух моделях, так как используется основное уравнение
Где MSM - это среднее значение квадратов невязок модели более низкого порядка (где самый низкий порядок - это среднее значение целевой переменной, т. Е. Точки пересечения).
( http://www.stat.yale.edu/Courses/1997-98/101/anovareg.htm )
Вы можете прочитать, хотя подобные темы на резюме, как
Как использовать anova для сравнения двух моделей?
источник
Из того, что я узнал,
Вы можете использовать таблицы ANOVA, чтобы определить, действительно ли ваши объясняющие переменные оказывают существенное влияние на переменную ответа, и, таким образом, соответствуют соответствующей модели.
Вот пример вывода ANOVA для проекта, над которым я работаю в R, где я тестирую две модели (одну с переменными днями и одну без переменных дней):
Как видите, соответствующее значение р из F-теста составляет 0,13, что больше 0,05. Таким образом, мы не можем отвергнуть нулевую гипотезу о том, что Дни не влияют на Y. Итак, я выбираю модель 1, а не модель 2.
источник