Является ли переменная значимой в модели линейной регрессии?

9

У меня есть модель линейной регрессии с выборочными и переменными наблюдениями, и я хочу знать:

  1. Является ли конкретная переменная достаточно значимой, чтобы оставаться включенной в модель.
  2. Должна ли другая переменная (с наблюдениями) быть включена в модель.

Какая статистика может мне помочь? Как получить их наиболее эффективно?

Вильгельм
источник

Ответы:

26

Статистическая значимость обычно не является хорошей основой для определения того, следует ли включать переменную в модель. Статистические тесты были разработаны для проверки гипотез, а не выбора переменных. Я знаю, что во многих учебниках обсуждается выбор переменных с использованием статистических тестов, но обычно это плохой подход. См. Книгу Харрелла « Стратегии регрессионного моделирования» по некоторым причинам. В наши дни выбор переменных на основе AIC (или чего-то подобного) обычно является предпочтительным.

Роб Хиндман
источник
На самом деле, насколько я помню, Харрелл настоятельно не рекомендует использовать AIC. Я предполагаю, что перекрестная проверка, вероятно, будет самым безопасным методом.
Тал Галили
1
AIC асимптотически эквивалентен CV. Смотрите ответы на stats.stackexchange.com/questions/577/… . Я проверил Харрелла до того, как написал этот ответ, и не увидел разочарования в AIC. Он предупреждает о проверке значимости после выбора переменной с помощью AIC или любого другого метода.
Роб Хиндман
@Tal: Возможно, из одной из его статей, а не из книги по RMS, я помню, как Харрелл возражал против использования AIC для простого выбора из множества моделей. Я думаю, что он имел в виду, что вы должны добавлять переменную за раз и методически сравнивать две модели или использовать какую-то похожую стратегию. ( Для того, чтобы быть ясно, что это в соответствии с ответом Роба.)
АРС
Выполняя быстрый поиск, я обнаружил, что Харрелл пишет следующее: «Остерегайтесь выбора модели на основе значений P, R-квадрата, частичного R-квадрата, AIC, BIC, коэффициентов регрессии или Cp Мэллова». Он написал это 14.12.08 в списке рассылки под названием [R] Получение p-значений для коэффициентов из функции LRM (дизайн пакета) - открытый текст. Думаю, я неправильно понял его значение.
Тал Галили
2
@Tal, @Rob: В этой теме он говорит: «Обязательно используйте принцип иерархии». Возможно , интерес, это обсуждение с medstats (прокрутите вниз для ответа Харрелл в): groups.google.com/group/medstats/browse_thread/thread/...
АРС
4

Я второй комментарий Роба. Все более предпочтительной альтернативой является включение всех ваших переменных и сокращение их до 0. См. Tibshirani, R. (1996). Регрессивная усадка и отбор с помощью лассо.

http://www-stat.stanford.edu/~tibs/lasso/lasso.pdf

user603
источник
1
Есть ли какой-то способ количественно оценить то, что в наши дни является «все более предпочтительным»?
Тал Галили
Я думаю, что это признано научно более правильным во многих областях в том смысле, что метод усадки в большей степени используется в недавних прикладных статистических работах, чем подход * .IC. Это показывает определенный, по крайней мере, молчаливый теоретический консенсус.
user603
1
2п
3

Для первой части вы ищете F-тест . Вычислите свою остаточную сумму квадратов из каждого соответствия модели и вычислите F-статистику, которую вы можете использовать для нахождения p-значений из F-распределения или другого нулевого распределения, которое вы генерируете сами.

Эрик Су
источник
1

Еще один голос за ответ Роба.

Есть также некоторые интересные идеи в литературе "относительной важности". В этой работе разрабатываются методы, которые стремятся определить, насколько важна связь с каждым из числа кандидатов-предикторов. Существуют байесовские и частотные методы. Проверьте пакет "relimpo" в R для цитат и кода.

Эндрю Робинсон
источник
1

Мне также нравится ответ Роба. И, если вам случится использовать SAS вместо R, вы можете использовать PROC GLMSELECT для моделей, которые будут выполняться с помощью PROC GLM, хотя это хорошо работает и для некоторых других моделей. Видеть

Флом и Касселл «Шаг за шагом: почему методы поэтапного выбора плохи и что вы должны использовать» были представлены в различных группах, совсем недавно, NESUG 2009

Питер Флом
источник