В R drop1
команда выводит что-то аккуратное.
Эти две команды должны получить какой-то вывод:
example(step)#-> swiss
drop1(lm1, test="F")
Моя выглядит так:
> drop1(lm1, test="F")
Single term deletions
Model:
Fertility ~ Agriculture + Examination + Education + Catholic +
Infant.Mortality
Df Sum of Sq RSS AIC F value Pr(F)
<none> 2105.0 190.69
Agriculture 1 307.72 2412.8 195.10 5.9934 0.018727 *
Examination 1 53.03 2158.1 189.86 1.0328 0.315462
Education 1 1162.56 3267.6 209.36 22.6432 2.431e-05 ***
Catholic 1 447.71 2552.8 197.75 8.7200 0.005190 **
Infant.Mortality 1 408.75 2513.8 197.03 7.9612 0.007336 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Что все это значит? Я предполагаю, что «звезды» помогают решить, какие входные переменные следует сохранить. Глядя на вывод выше, я хочу отбросить переменную «Проверка» и сосредоточиться на переменной «Образование», является ли интерпретация правильной?
Кроме того, значение AIC, чем ниже, тем лучше, да?
Издание Обратите внимание на ответ сообщества Wiki ниже и добавьте его, если считаете нужным, чтобы уточнить этот вывод.
step()
был оценен +2 на момент написания этой статьи (так почему ?!), (3) ОП признал полезность ответа @ Joris.Ответы:
drop1
дает сравнение моделей на основе критерия AIC, и при использовании опцииtest="F"
вы добавляете ANOVA типа II, как описано в файлах справки . Пока у вас есть только непрерывные переменные, эта таблица в точности эквивалентнаsummary(lm1)
, так как F-значения - это только те T-значения в квадрате. P-значения точно такие же.Так что с этим делать? Точно интерпретируйте это так: оно выражается таким образом, если модель без этого термина «значительно» отличается от модели с этим термином. Имейте в виду «» вокруг, так как значение здесь не может быть истолковано, как думает большинство людей. (проблема мульти-тестирования и все ...)
А что касается АПК: чем ниже, тем лучше кажется. AIC - это значение, которое подходит для модели , а не для переменной. Таким образом, лучшая модель из этого вывода будет модель без переменной проверки.
Имейте в виду, что вычисления как AIC, так и F-статистики отличаются от R-функций,
AIC(lm1)
соответственно.anova(lm1)
, Для тогоAIC()
, что информация предоставляется на страницах справкиextractAIC()
. Дляanova()
функции довольно очевидно, что тип I и тип II SS не совпадают.Я пытаюсь не быть грубым, но если вы не понимаете, что объясняется в файлах справки, вам не следует использовать эту функцию в первую очередь. Пошаговая регрессия невероятно сложна, подвергая риску ваши значения p самым глубоким образом. Итак, еще раз, не основывайте себя на p-значениях. Ваша модель должна отражать вашу гипотезу, а не наоборот.
источник
Для справки, это значения, которые включены в таблицу:
Df
относится к степеням свободы , «число степеней свободы - это число значений в окончательном расчете статистики, которые могут варьироваться».Sum of Sq
Столбец относится к сумме квадратов (или , точнее , сумма квадратов отклонений ). Короче говоря, это мера количества, которое каждое отдельное значение отклоняется от общего среднего значения.RSS
является остаточной суммой квадратов . Это мера того, насколько прогнозируемое значение зависимой (или выходной) переменной варьируется от истинного значения для каждой точки данных в наборе (или, более разговорно: каждая «строка» в таблице данных).AIC
это информационный критерий Акаике, который обычно считается «слишком сложным для объяснения», но, вкратце, он является мерой достоверности соответствия оценочной статистической модели. Если вам требуется дополнительная информация, вам придется обратиться к мертвым деревьям со словами на них (например, книги). Или Википедия и ресурсы там.F value
Используется для выполнения то , что называется F-тест , и из нее выводится наPr(F)
значение, которое описывает , как вероятно (или возможный = Рг) , что Р значение. Значение Pr (F), близкое к нулю (обозначенное как***
), указывает на входную переменную, которая в некотором роде важна для включения в хорошую модель, то есть модель, которая не включает ее, «существенно» отличается от той, которая это делает.Все эти значения в контексте
drop1
команды рассчитываются для сравнения всей модели (включая все входные переменные) с моделью, полученной в результате удаления этой конкретной переменной для каждой строки в выходной таблице.Теперь, если это можно улучшить, пожалуйста, не стесняйтесь добавлять к нему или уточнить любые вопросы. Моя цель состоит только в том, чтобы уточнить и предоставить лучшую ссылку "обратного просмотра" из вывода команды R на ее реальное значение.
источник