Вычисление лучшего подмножества предикторов для линейной регрессии

9

Какие методы доступны для выбора предикторов в многомерной линейной регрессии с подходящими предикторами, чтобы найти «оптимальное» подмножество предикторов без явного тестирования всех 2 p подмножеств? В «Прикладном анализе выживания» Хосмер и Лемешоу ссылаются на метод Кука, но я не могу найти оригинальную статью. Кто-нибудь может описать этот метод или, что еще лучше, более современный метод? Можно предположить нормально распределенные ошибки.п2п

shabbychef
источник
1
Вы ссылаетесь на следующую статью? Кук, AYC (1984) Регрессия всех подмножеств в модели пропорциональных рисков. Biometrika, 71, 587-592
хл
Да, в самом деле. Я думаю, мне придется как-то выкопать эту газету. Это кажется старым, однако.
Шаббычеф
2
Найдите эту статью в то же время, метод Лассо для выбора переменных в модели Кокса, от Tibshirani (Stat. Med. 1997 16: 385-395), j.mp/bw0mB9 . HTH
chl
1
и этот более поздний (тесно связанный с penalizedпакетом R), j.mp/cooIT3 . Может быть, это тоже, j.mp/bkDQUj . Приветствия
chl

Ответы:

12

Я никогда не слышал о методе Кука, но горячей темой в наши дни является минимизация L1. Обоснование состоит в том, что если вы используете штрафной член абсолютного значения коэффициентов регрессии, неважные из них должны стремиться к нулю.

Эти техники имеют несколько забавных названий: лассо, LARS, селектор Данцига. Вы можете прочитать документы, но хорошее место для начала - « Элементы статистического обучения» , глава 3.

Саймон Бирн
источник
2
Кстати, штрафованный пакет R ( j.mp/bdQ0Rp ) включает в себя штрафованную оценку l1 / l2 для обобщенных линейных моделей и моделей Кокса.
ЧЛ
застрял в земле Matlab, реализуя это сам ...
shabbychef
Ларс великолепен, кстати. очень классная штука не уверен, как я могу втиснуть это в рамки модели пропорциональных рисков Кокса, tho ...
shabbychef
2
Программное обеспечение Glmnet имеет лассоидную модель Кокса РН: cran.r-project.org/web/packages/glmnet/index.html также имеется версия MATLAB (хотя она не уверена, что она использует модель Кокса): www-stat .stanford.edu / ~ tibs / glmnet-matlab
Саймон Бирн
3

Это огромная тема. Как упоминалось ранее, Хасти, Тибширани и Фридман дают хорошее введение в гл. 3 «Элементы статистического обучения».

Несколько баллов. 1) Что вы подразумеваете под «лучшим» или «оптимальным»? То, что лучше в одном смысле, может не быть лучше в другом. Двумя общими критериями являются точность прогнозирования (прогнозирование переменной результата) и выработка несмещенных оценок коэффициентов. Некоторые методы, такие как регрессия Лассо и Риджа, неизбежно приводят к смещенным оценкам коэффициентов.

2) Сама фраза «лучшие подмножества» может использоваться в двух разных смыслах. Как правило, для обозначения лучшего подмножества среди всех предикторов, которое оптимизирует некоторые критерии построения модели. Более конкретно, это может относиться к эффективному алгоритму Фурнивала и Уилсона для нахождения этого подмножества среди умеренных (~ 50) чисел линейных предикторов (Регрессии по скачкам и границам. Technometrics, Vol. 16, No. 4 (Nov., 1974), pp. 499-51)

http://www.jstor.org/stable/1267601

Thylacoleo
источник
1) да, вопрос несколько двусмысленный; как вы упомянули, существует множество определений «оптимального»: с помощью информационного критерия, перекрестной проверки и т. д. Большинство эвристических подходов, которые я видел к этой проблеме, основаны на пошаговом добавлении / удалении предиктора: сложение или вычитание за один проход вперед и т. д. Тем не менее, Hosmer и Lemeshow ссылаются на этот метод (вариант работы Lawless & Singhal), который каким-то «волшебным образом» выбирает предикторы с помощью одного вычисления MLR (по модулю некоторых других вещей). Мне очень любопытно об этом методе ...
shabbychef
0

Из того, что я узнал, что сначала в качестве инструмента скрининга используется подход «Лучшие подмножества», затем пошаговые процедуры выбора могут помочь вам окончательно решить, какие модели могут быть лучшими моделями подмножеств (в настоящее время число этих моделей довольно мало для обработки). Если одна из моделей соответствует условиям модели, хорошо подытоживает тенденцию в данных и, что наиболее важно, позволяет вам ответить на ваш вопрос исследования, то ваша работа завершена.

Рози Ло
источник
1
Я думаю, вы можете помнить это. Лучшие подмножества намного дороже в вычислительном отношении, чем пошаговые, но обязательно поймают что-нибудь пошаговое, так что вы будете использовать пошаговые для проверки и лучших подмножеств после. FWIW, я не согласен с наивным использованием этих стратегий, по причинам, которые я обсуждаю в своем ответе здесь: алгоритмы для автоматического выбора модели .
gung - Восстановить Монику