Я пытаюсь понять логику F-теста ANOVA в Простом линейном регрессионном анализе. У меня такой вопрос: Когда значение F, т.е.
MSR/MSE
большое, мы принимаем модель как значимую. Какая логика стоит за этим?
regression
anova
Не могу сказать
источник
источник
Ответы:
В простейшем случае, когда у вас есть только один предиктор (простая регрессия), скажем,X1 , F тест говорит вам, объясняет ли включение X1 большую часть дисперсии, наблюдаемой в Y по сравнению с нулевой моделью (только перехват) , Идея заключается в том, чтобы проверить, является ли добавленная объясненная дисперсия (общая дисперсия, TSS, минус остаточная дисперсия, RSS) достаточно большой, чтобы ее можно было рассматривать как «значительную величину». Здесь мы сравниваем модель с одним предиктором или пояснительной переменной с базовой линией, которая является просто «шумом» (ничего, кроме большого среднего).
Аналогично, вы можете вычислить статистику в настройке множественной регрессии: в этом случае это составляет тест всех предикторов, включенных в модель, что в рамках структуры HT означает, что мы задаемся вопросом, полезен ли какой-либо из них для прогнозирования ответа переменная. Это причина, по которой вы можете столкнуться с ситуациями, когда F- тест для всей модели является значительным, тогда как некоторые из t или z- тестов, связанных с каждым коэффициентом регрессии, не имеют значения.F F t z
В статистика выглядит какF
где - количество параметров модели, а n - количество наблюдений. Эта величина должна быть отнесена к распределению F p - 1 , n - p для критического или p- значения. Это относится и к простой регрессионной модели, и, очевидно, имеет некоторую аналогию с классической структурой ANOVA.p n Fр - 1 , н - р п
Примечание. Когда у вас есть более одного предиктора, вы можете задаться вопросом, «снижает» ли качество подбора модели рассмотрение только поднабора этих предикторов. Это соответствует ситуации, когда мы рассматриваем вложенные модели . Это в точности та же ситуация, что и выше, где мы сравниваем данную регрессионную модель с нулевой моделью (без предикторов). Чтобы оценить уменьшение объясненной дисперсии, мы можем сравнить остаточную сумму квадратов (RSS) в обеих моделях (то есть то, что осталось необъяснимым, если учесть влияние предикторов, присутствующих в модели). Пусть и M 1 обозначают базовую модель (с pM0 M1 п параметры) и модель с дополнительным предиктором ( параметры), то если RSS M 1 - RSS M 0 мала, мы считаем, что модель меньшего размера работает так же хорошо, как и модель большего размера. Хорошей статистикой для использования будет отношение таких СС, ( RSS M 1 - RSS M 0 ) / RSS M 0 , взвешенное по степеням свободы ( p - q для числителя и n - pQ= р + 1 RSSM1- RSSM0 ( RSSM1- RSSM0) / RSSM0 р - д н - р для знаменателя). Как уже было сказано, можно показать, что эта величина следует распределению (или Фишера-Снедекора) с p - q и n - p степенями свободы. Если наблюдаемое F больше соответствующего квантиля F при данном α (обычно α = 0,05 ), то мы бы пришли к выводу, что большая модель делает «лучшую работу». (Это ни в коем случае не означает, что модель верна с практической точки зрения!)F р - д н - р F F α α=0.05
Обобщением вышеприведенной идеи является критерий отношения правдоподобия .
Если вы используете R, вы можете поиграть с вышеуказанными понятиями, как это:
источник
anova()
функция в R возвращает отдельную строку для каждого предиктора в модели. Например,anova(lm0)
выше возвращает строку дляV1
,V2
иResiduals
(и не всего). Таким образом, мы получаем две F * статистики для этой модели. Как это меняет интерпретацию статистики F *, представленной в таблице ANOVA?anova()
для сравнения GLM. При применении к объектуlm
илиaov
, он отображает отдельные эффекты (SS) для каждого термина в модели и не показывает TSS. (Раньше я применял это наоборот, а именно, после подбора ANOVAaov()
, я могу использовать,summary.lm()
чтобы получить представление о контрастах лечения.) Однако междуsummary.lm()
иsummary.aov()
, особенно в отношении последовательной подгонки , существуют тонкие проблемы .