У меня есть модель линейной регрессии с выборочными и переменными наблюдениями, и я хочу знать:
- Является ли конкретная переменная достаточно значимой, чтобы оставаться включенной в модель.
- Должна ли другая переменная (с наблюдениями) быть включена в модель.
Какая статистика может мне помочь? Как получить их наиболее эффективно?
regression
Вильгельм
источник
источник
Я второй комментарий Роба. Все более предпочтительной альтернативой является включение всех ваших переменных и сокращение их до 0. См. Tibshirani, R. (1996). Регрессивная усадка и отбор с помощью лассо.
http://www-stat.stanford.edu/~tibs/lasso/lasso.pdf
источник
Для первой части вы ищете F-тест . Вычислите свою остаточную сумму квадратов из каждого соответствия модели и вычислите F-статистику, которую вы можете использовать для нахождения p-значений из F-распределения или другого нулевого распределения, которое вы генерируете сами.
источник
Еще один голос за ответ Роба.
Есть также некоторые интересные идеи в литературе "относительной важности". В этой работе разрабатываются методы, которые стремятся определить, насколько важна связь с каждым из числа кандидатов-предикторов. Существуют байесовские и частотные методы. Проверьте пакет "relimpo" в R для цитат и кода.
источник
Мне также нравится ответ Роба. И, если вам случится использовать SAS вместо R, вы можете использовать PROC GLMSELECT для моделей, которые будут выполняться с помощью PROC GLM, хотя это хорошо работает и для некоторых других моделей. Видеть
Флом и Касселл «Шаг за шагом: почему методы поэтапного выбора плохи и что вы должны использовать» были представлены в различных группах, совсем недавно, NESUG 2009
источник