Какие методы доступны для выбора предикторов в многомерной линейной регрессии с подходящими предикторами, чтобы найти «оптимальное» подмножество предикторов без явного тестирования всех 2 p подмножеств? В «Прикладном анализе выживания» Хосмер и Лемешоу ссылаются на метод Кука, но я не могу найти оригинальную статью. Кто-нибудь может описать этот метод или, что еще лучше, более современный метод? Можно предположить нормально распределенные ошибки.
9
penalized
пакетом R), j.mp/cooIT3 . Может быть, это тоже, j.mp/bkDQUj . ПриветствияОтветы:
Я никогда не слышал о методе Кука, но горячей темой в наши дни является минимизация L1. Обоснование состоит в том, что если вы используете штрафной член абсолютного значения коэффициентов регрессии, неважные из них должны стремиться к нулю.
Эти техники имеют несколько забавных названий: лассо, LARS, селектор Данцига. Вы можете прочитать документы, но хорошее место для начала - « Элементы статистического обучения» , глава 3.
источник
Это огромная тема. Как упоминалось ранее, Хасти, Тибширани и Фридман дают хорошее введение в гл. 3 «Элементы статистического обучения».
Несколько баллов. 1) Что вы подразумеваете под «лучшим» или «оптимальным»? То, что лучше в одном смысле, может не быть лучше в другом. Двумя общими критериями являются точность прогнозирования (прогнозирование переменной результата) и выработка несмещенных оценок коэффициентов. Некоторые методы, такие как регрессия Лассо и Риджа, неизбежно приводят к смещенным оценкам коэффициентов.
2) Сама фраза «лучшие подмножества» может использоваться в двух разных смыслах. Как правило, для обозначения лучшего подмножества среди всех предикторов, которое оптимизирует некоторые критерии построения модели. Более конкретно, это может относиться к эффективному алгоритму Фурнивала и Уилсона для нахождения этого подмножества среди умеренных (~ 50) чисел линейных предикторов (Регрессии по скачкам и границам. Technometrics, Vol. 16, No. 4 (Nov., 1974), pp. 499-51)
http://www.jstor.org/stable/1267601
источник
Из того, что я узнал, что сначала в качестве инструмента скрининга используется подход «Лучшие подмножества», затем пошаговые процедуры выбора могут помочь вам окончательно решить, какие модели могут быть лучшими моделями подмножеств (в настоящее время число этих моделей довольно мало для обработки). Если одна из моделей соответствует условиям модели, хорошо подытоживает тенденцию в данных и, что наиболее важно, позволяет вам ответить на ваш вопрос исследования, то ваша работа завершена.
источник