Каковы современные, легко используемые альтернативы ступенчатой ​​регрессии?

76

У меня есть набор данных с около 30 независимыми переменными, и я хотел бы построить обобщенную линейную модель (GLM), чтобы исследовать отношения между ними и зависимой переменной.

Я знаю, что метод, которому меня учили в этой ситуации, ступенчатая регрессия, теперь считается статистическим грехом .

Какие современные методы выбора модели следует использовать в данной ситуации?

fmark
источник
4
Другие люди упоминают статистические процедуры, которые могут быть полезны, но сначала я хотел бы спросить, есть ли у вас теория о силе и форме взаимосвязи между переменными. Насколько велик ваш образец? У вас есть причины избегать сложных моделей?
Майкл Бишоп
2
Кто-нибудь рассматривал усреднение модели в качестве альтернативы для борьбы с проблемой смещения до тестирования и ошибками спецификации? Грубо говоря, все переменные являются потенциальными предикторами, и вы можете оценить вероятность их полезности. Таким образом, объединенная оценка не только улучшает прогнозирование, но и дает хорошие оценки свойств для параметров переменных в рамках «области действия».
Дмитрий Челов
1
Усадка. Надеюсь, никто больше не использует пошагово
Аксакал

Ответы:

56

Есть несколько альтернатив поэтапной регрессии . Наиболее часто используемые:

  • Мнение эксперта, чтобы решить, какие переменные включить в модель.
  • Регрессия частично наименьших квадратов . По сути, вы получаете скрытые переменные и делаете регрессию с ними. Вы также можете сделать PCA самостоятельно, а затем использовать основные переменные.
  • Оператор наименьшей абсолютной усадки и выбора (LASSO).

И PLS Regression, и LASSO реализованы в R-пакетах, таких как

PLS : http://cran.r-project.org/web/packages/pls/ и

LARS : http://cran.r-project.org/web/packages/lars/index.html

Если вы хотите изучить только взаимосвязь между вашей зависимой переменной и независимыми переменными (например, вам не нужны тесты статистической значимости), я бы также порекомендовал методы машинного обучения, такие как случайные леса или деревья классификации / регрессии . Случайные леса могут также аппроксимировать сложные нелинейные отношения между вашими зависимыми и независимыми переменными, которые не могли бы быть обнаружены линейными методами (такими как линейная регрессия ).

Хорошей отправной точкой для машинного обучения может быть представление задачи «Машинное обучение» в CRAN:

Вид задачи машинного обучения : http://cran.r-project.org/web/views/MachineLearning.html

Johannes
источник
10
Пакет glmnet также является очень быстрой реализацией лассо
Дэвид Дж. Харрис
2
Я хотел бы предупредить, что в сообществе скрытых переменных PLS-члены образуют очень изолированную собственную клику и никогда не могли проникнуть в серьезную литературу (под которой я имею в виду, например, асимптотическую теорию оценок наименьших квадратов в работах Майкла). Браун, Питер Бентлер, Альберт Саторра и Алекс Шапиро, и инструментальное моделирование переменных Кена Боллена, чтобы назвать несколько самых важных). Странно, однако, что PLS кажется приемлемым методом в кругах статистики, которые обычно поддерживают более высокий стандарт строгости, чем сообщество моделирования скрытых переменных.
StasK
6
В Элементах статистического обучения имеет сравнение differend выбора переменных и усадка методов: (ОЛС,) лучше подмножество, гребень, лассо, PLS, ПЦР.
cbeleites
19

Другой вариант, который вы могли бы рассмотреть для выбора переменных и регуляризации - это эластичная сеть . Это реализовано в R через пакет glmnet .

Zach
источник
16

Модельное усреднение является одним из способов (теоретико-информационный подход). Пакет R glmulti может выполнять линейные модели для каждой комбинации переменных предикторов и выполнять усреднение моделей для этих результатов.

См. Http://sites.google.com/site/mcgillbgsa/workshops/glmulti.

Не забудьте сначала изучить коллинеарность между предикторными переменными. Факторы инфляции дисперсии (доступны в пакете R "автомобиль") полезны здесь.

Olip
источник
Благодарю. Это действительно подходит для всех возможных моделей? Даже без взаимодействий в этом случае около миллиарда моделей.
Питер Эллис
AFAIK это может, но есть вариант генетического алгоритма, который значительно сокращает время, необходимое для оценки всех моделей. См. Www.jstatsoft.org/v34/i12/paper
OliP
3
Кроме того MuMIn, AICcmodavgпакеты, хотя glmultiи умнее о больших модельных наборах.
Бен Болкер
8

@johannes дал отличный ответ. Если вы являетесь пользователем SAS, то LASSO доступен через PROC GLMSELECT, а частичные наименьшие квадраты - через PROC PLS.

Дэвид Касселл и я сделали презентацию о LASSO (и регрессии под наименьшим углом) в нескольких группах пользователей SAS. Это доступно здесь

Питер Флом - Восстановить Монику
источник
7

Интересная дискуссия. Обозначать поэтапную регрессию как статистический грех - это некое религиозное утверждение, поскольку каждый знает, что они делают, и что цели этого упражнения ясны, это, безусловно, хороший подход со своими собственными предположениями и, безусловно, предвзято, не гарантирует оптимальности и т. д. Однако то же самое можно сказать о многих других вещах, которые мы делаем. Я не видел упомянутой CCA, которая решает более фундаментальную проблему корреляционной структуры в ковариатном пространстве, действительно гарантирует оптимальность, существует довольно долго и имеет некоторую кривую обучения. Он реализован на различных платформах, включая R.

gillesc
источник