У меня есть набор данных с около 30 независимыми переменными, и я хотел бы построить обобщенную линейную модель (GLM), чтобы исследовать отношения между ними и зависимой переменной.
Я знаю, что метод, которому меня учили в этой ситуации, ступенчатая регрессия, теперь считается статистическим грехом .
Какие современные методы выбора модели следует использовать в данной ситуации?
Ответы:
Есть несколько альтернатив поэтапной регрессии . Наиболее часто используемые:
И PLS Regression, и LASSO реализованы в R-пакетах, таких как
PLS : http://cran.r-project.org/web/packages/pls/ и
LARS : http://cran.r-project.org/web/packages/lars/index.html
Если вы хотите изучить только взаимосвязь между вашей зависимой переменной и независимыми переменными (например, вам не нужны тесты статистической значимости), я бы также порекомендовал методы машинного обучения, такие как случайные леса или деревья классификации / регрессии . Случайные леса могут также аппроксимировать сложные нелинейные отношения между вашими зависимыми и независимыми переменными, которые не могли бы быть обнаружены линейными методами (такими как линейная регрессия ).
Хорошей отправной точкой для машинного обучения может быть представление задачи «Машинное обучение» в CRAN:
Вид задачи машинного обучения : http://cran.r-project.org/web/views/MachineLearning.html
источник
Другой вариант, который вы могли бы рассмотреть для выбора переменных и регуляризации - это эластичная сеть . Это реализовано в R через пакет glmnet .
источник
Модельное усреднение является одним из способов (теоретико-информационный подход). Пакет R glmulti может выполнять линейные модели для каждой комбинации переменных предикторов и выполнять усреднение моделей для этих результатов.
См. Http://sites.google.com/site/mcgillbgsa/workshops/glmulti.
Не забудьте сначала изучить коллинеарность между предикторными переменными. Факторы инфляции дисперсии (доступны в пакете R "автомобиль") полезны здесь.
источник
MuMIn
,AICcmodavg
пакеты, хотяglmulti
и умнее о больших модельных наборах.@johannes дал отличный ответ. Если вы являетесь пользователем SAS, то LASSO доступен через PROC GLMSELECT, а частичные наименьшие квадраты - через PROC PLS.
Дэвид Касселл и я сделали презентацию о LASSO (и регрессии под наименьшим углом) в нескольких группах пользователей SAS. Это доступно здесь
источник
Интересная дискуссия. Обозначать поэтапную регрессию как статистический грех - это некое религиозное утверждение, поскольку каждый знает, что они делают, и что цели этого упражнения ясны, это, безусловно, хороший подход со своими собственными предположениями и, безусловно, предвзято, не гарантирует оптимальности и т. д. Однако то же самое можно сказать о многих других вещах, которые мы делаем. Я не видел упомянутой CCA, которая решает более фундаментальную проблему корреляционной структуры в ковариатном пространстве, действительно гарантирует оптимальность, существует довольно долго и имеет некоторую кривую обучения. Он реализован на различных платформах, включая R.
источник