Интерпретация вывода drop1 в R

14

В R drop1команда выводит что-то аккуратное.
Эти две команды должны получить какой-то вывод:
example(step)#-> swiss
drop1(lm1, test="F")

Моя выглядит так:

> drop1(lm1, test="F")
Single term deletions

Model:
Fertility ~ Agriculture + Examination + Education + Catholic + 
    Infant.Mortality
                 Df Sum of Sq    RSS    AIC F value     Pr(F)    
<none>                        2105.0 190.69                      
Agriculture       1    307.72 2412.8 195.10  5.9934  0.018727 *  
Examination       1     53.03 2158.1 189.86  1.0328  0.315462    
Education         1   1162.56 3267.6 209.36 22.6432 2.431e-05 ***
Catholic          1    447.71 2552.8 197.75  8.7200  0.005190 ** 
Infant.Mortality  1    408.75 2513.8 197.03  7.9612  0.007336 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Что все это значит? Я предполагаю, что «звезды» помогают решить, какие входные переменные следует сохранить. Глядя на вывод выше, я хочу отбросить переменную «Проверка» и сосредоточиться на переменной «Образование», является ли интерпретация правильной?

Кроме того, значение AIC, чем ниже, тем лучше, да?

Издание Обратите внимание на ответ сообщества Wiki ниже и добавьте его, если считаете нужным, чтобы уточнить этот вывод.

gakera
источник
7
помощь в R предназначена для того, чтобы объяснить вам, как использовать функцию. Это не курс по статистике. Что касается этого, в целом я считаю, что страницы справки R являются одними из самых полных и удобных из всех пакетов с открытым исходным кодом, которые я знаю. И платить пакеты по этому вопросу. SPSS и SAS дают вам много неразберихи с полуправдой и полной бессмысленностью в качестве «руководства по интерпретации».
Йорис Мейс
1
Этот вопрос был отклонен. Я не собирался давать свой +1, но теперь мне кажется, что голосование по нему не очень конструктивно: (1) ОП дает понять, что это домашнее задание, и использует для иллюстрации встроенный набор данных R, а не его данные, (2) связанный вопрос step()был оценен +2 на момент написания этой статьи (так почему ?!), (3) ОП признал полезность ответа @ Joris.
ЧЛ
@chl: кажется, что я не единственный с чувствительными пальцами, когда дело доходит до страниц справки R :-). Но я искренне согласен с вами. Вопрос верный, задан четко, и, следовательно, нет абсолютно никаких оснований для его отрицания.
Йорис Мейс
Хех, извини, если я наступил на твои пальцы ногами с помощью помощи, я просто не очень терпелив, когда дело касается командной строки. Я странный в этом смысле, я знаю. Вы не будете первыми, кто меня об этом скажет :) Мне нравится это место, люди честные.
Гакера
Итак, я отредактировал вопрос так, чтобы он не был столь неприятным для сторонников R и помощи R :) И перефразировал вопрос об AIC, чтобы не вводить в заблуждение читателей только OP.
Гакера

Ответы:

10

drop1дает сравнение моделей на основе критерия AIC, и при использовании опции test="F"вы добавляете ANOVA типа II, как описано в файлах справки . Пока у вас есть только непрерывные переменные, эта таблица в точности эквивалентна summary(lm1), так как F-значения - это только те T-значения в квадрате. P-значения точно такие же.

Так что с этим делать? Точно интерпретируйте это так: оно выражается таким образом, если модель без этого термина «значительно» отличается от модели с этим термином. Имейте в виду «» вокруг, так как значение здесь не может быть истолковано, как думает большинство людей. (проблема мульти-тестирования и все ...)

А что касается АПК: чем ниже, тем лучше кажется. AIC - это значение, которое подходит для модели , а не для переменной. Таким образом, лучшая модель из этого вывода будет модель без переменной проверки.

Имейте в виду, что вычисления как AIC, так и F-статистики отличаются от R-функций, AIC(lm1)соответственно. anova(lm1), Для того AIC(), что информация предоставляется на страницах справки extractAIC(). Для anova()функции довольно очевидно, что тип I и тип II SS не совпадают.

Я пытаюсь не быть грубым, но если вы не понимаете, что объясняется в файлах справки, вам не следует использовать эту функцию в первую очередь. Пошаговая регрессия невероятно сложна, подвергая риску ваши значения p самым глубоким образом. Итак, еще раз, не основывайте себя на p-значениях. Ваша модель должна отражать вашу гипотезу, а не наоборот.

Йорис Мейс
источник
1
Мне нравится это чувство: «Если я не понимаю, что я уже делаю, я не должен пытаться научиться этому ...» Это также подход, использованный в справке R - он не поможет, если вы уже не знаете, что продолжается. Я надеялся, что это может стать началом чего-то другого.
Гакера
Но я могу использовать эту часть вашего ответа: «Интерпретируйте это точно таким образом: это выражает, если модель без этого термина значительно отличается от модели с этим термином». Для меня это означает, что значения Pr (F) являются значимостью каждого из этих терминов, а небольшое значение означает, что эта переменная важна. Итак, хорошая модель должна включать переменные "***", а не те, у которых нет звездочек.
Гакера
4
@gakera: Вы меня не так поняли. Если вы не понимаете, что делаете, вам обязательно стоит изучить его, прежде чем использовать . Это значит читать статистику и следовать курсам. Итак, хорошая модель должна включать переменные, которые сформулированы в гипотезе. Если вы основываетесь на переменных «***», вам сначала необходим тщательный курс по моделированию. Вы, очевидно, не поняли мой последний комментарий. Извините за прямое общение, приходит с парнем. Ничего личного.
Йорис Мейс
@gakera: я обновил свой ответ, чтобы уточнить некоторые важные моменты. Главным образом потому, что вы неправильно истолковали ту часть, которую, по вашему мнению, могли бы использовать.
Йорис Мейс
Я учусь на практике, в конце концов, это домашнее задание, никто не умрет, если я не пойму это правильно - рыба уже мертва: P Спасибо за помощь до сих пор, и не волнуйтесь, это не так мой первый раз в интернете :)
гакера
4

Для справки, это значения, которые включены в таблицу:
Dfотносится к степеням свободы , «число степеней свободы - это число значений в окончательном расчете статистики, которые могут варьироваться».

Sum of SqСтолбец относится к сумме квадратов (или , точнее , сумма квадратов отклонений ). Короче говоря, это мера количества, которое каждое отдельное значение отклоняется от общего среднего значения.
RSSявляется остаточной суммой квадратов . Это мера того, насколько прогнозируемое значение зависимой (или выходной) переменной варьируется от истинного значения для каждой точки данных в наборе (или, более разговорно: каждая «строка» в таблице данных).

AICэто информационный критерий Акаике, который обычно считается «слишком сложным для объяснения», но, вкратце, он является мерой достоверности соответствия оценочной статистической модели. Если вам требуется дополнительная информация, вам придется обратиться к мертвым деревьям со словами на них (например, книги). Или Википедия и ресурсы там.

F valueИспользуется для выполнения то , что называется F-тест , и из нее выводится на Pr(F)значение, которое описывает , как вероятно (или возможный = Рг) , что Р значение. Значение Pr (F), близкое к нулю (обозначенное как ***), указывает на входную переменную, которая в некотором роде важна для включения в хорошую модель, то есть модель, которая не включает ее, «существенно» отличается от той, которая это делает.

Все эти значения в контексте drop1команды рассчитываются для сравнения всей модели (включая все входные переменные) с моделью, полученной в результате удаления этой конкретной переменной для каждой строки в выходной таблице.

Теперь, если это можно улучшить, пожалуйста, не стесняйтесь добавлять к нему или уточнить любые вопросы. Моя цель состоит только в том, чтобы уточнить и предоставить лучшую ссылку "обратного просмотра" из вывода команды R на ее реальное значение.

гакера
источник
@gakera Practical Regression и Anova с использованием R - хорошая отправная точка для понимания линейных моделей и методов, связанных с выбором переменных / моделей. Как отмечает @Joris, ступенчатая регрессия редко является панацеей.
ЧЛ
хах, спасибо за добавление ссылок @chl при сохранении моего отказа от ответственности относительно того, почему я не могу публиковать их. Согласитесь, что я сосу: D
gakera
1
@gakera Я думаю, вам нужно иметь больше представителей, чтобы добавить более одной ссылки на редактирование - я понимаю, что это не очень приятно, когда вы начинаете на сайте вопросов и ответов. Я предполагал, что вы удалите свое последнее предложение самостоятельно. С другой стороны, я чувствую, что вы не должны ожидать слишком много голосов за предоставление ответа на свой вопрос, поскольку это своего рода резюме (хотя и полезно).
ЧЛ
Я не делаю это для голосов (это так Reddit: P) - полезное резюме - именно то, к чему я стремлюсь - главным образом для себя, но, вероятно, полезно для других.
Гакера
@gakera Я уверен, что это не для получения голосов. В большинстве случаев мы определяем наш собственный ответ как Community Wiki (CW), когда они не добавляют дополнительную или противоречивую информацию. Это нейтральный способ суммировать или обобщать ответы других.
хл