Как работает «ступенчатая регрессия»?

11

Я использовал следующий код R, чтобы соответствовать пробитной модели:

p1 <- glm(natijeh ~ ., family=binomial(probit), data=data1)
stepwise(p1, direction='backward/forward', criterion='BIC')

Я хочу знать, что делает stepwiseи backward/forwardделает именно и как выбрать переменные?

Махмуд
источник
7
Некоторые комментарии Фрэнка Харрелла ( stats.stackexchange.com/users/4253/frank-harrell ) о том, почему ступенчатая регрессия плоха: stata.com/support/faqs/statistics/stepwise-regression-problems
4
В дополнение к ссылкам BabakP, посмотрите также этот пост с сайта.
COOLSerdash
3
Еще один пост о проблемах с пошаговым (и назад и вперед, а также) - это статья, которую я написал с Дэвидом Касселлом: Остановка пошагово
Питер Флом - Восстановить Монику
@PeterFlom, чтобы ссылаться на эту статью, у меня возникли проблемы с пониманием правильного цитирования. Не могли бы вы перечислить это здесь? Спасибо.
doug.numbers
2
@ doug.numbers Он был представлен в различных местах и ​​опубликован в рамках материалов конференции. Если вы используете Google «Flom, Cassell, Stepwise», вы получите места, где он был представлен, и вы можете отформатировать его так, как вы форматируете цитаты для опубликованных презентаций.
Питер Флом - Восстановить Монику

Ответы:

10

Принцип пошагового отбора

  1. Вы подходите модели со всеми переменными, которые вы хотите. Это ваша текущая лучшая модель.
  2. Вы удаляете одну переменную (или добавляете одну из переменных, которые не используются в текущей наилучшей модели), и для каждой из них вы подгоняете новую модель и сравниваете их с каждой новой и исходной в соответствии с BIC (или любым другим). другой критерий, такой как AIC ). Вы получаете другую "текущую лучшую модель".

Вы повторяете 2. пока не произойдет сокращение BIC. У вас есть только локальный минимум BIC, что означает, что вы не можете получить лучшую модель среди всех возможных вариантов подмножеств переменных. Но, в любом случае, их обычно слишком много, так что это способ немного оптимизировать без лишней работы.

Смотрите также Пошаговая регрессия и Выбор модели в Википедии.


источник
5

Пошаговая регрессия в основном соответствует регрессионной модели, добавляя / опуская ковариаты по одному на основе указанного критерия (в приведенном выше примере критерий будет основан на BIC).

Указывая вперед, вы говорите, Rчто хотели бы начать с самой простой модели (то есть с одной ковариаты), а затем добавить одну ковариату за раз, оставляя только те, которые приводят к улучшению BIC моделей.

Указывая в обратном направлении, вы говорите, Rчто хотите начать с полной модели (т. Е. Модели со всеми ковариатами), а затем отбросить ковариаты, один раз за раз, что приведет к улучшению BIC.

Поэтапная регрессия может быть очень опасной статистической процедурой, поскольку она не является оптимальной процедурой выбора модели. Этот метод может привести к очень плохому выбору модели, поскольку он не защищает вас от таких проблем, как множественные сравнения.


источник
Спасибо. А как насчет «назад / вперед»?
Махмуд
Что ты имеешь в виду, что касается вперед / назад?
Один из методов stpewise () в R - это «назад / вперед»! Это сочетание обоих?
Махмуд
2
Oh sorry, now I understand what you are asking. Yes, if you specify both then it applies both forward and backward and chooses the one with the best criterion.