Лучшие методы выбора признаков для непараметрической регрессии

10

Вопрос новичка здесь. В настоящее время я выполняю непараметрическую регрессию, используя пакет np в R. У меня есть 7 функций, и я использую метод грубой силы, я определил лучшие 3. Но скоро у меня будет гораздо больше, чем 7 функций!

Мой вопрос заключается в том, каковы в настоящее время лучшие методы выбора признаков для непараметрической регрессии. И какие, если какие-либо пакеты реализуют методы. Спасибо.

jmmcnew
источник
1
что вы подразумеваете под "много больше" 100? 1000? 10000? 100000?
Робин Жирар
Вероятно, у меня будет порядка 100 функций. Но у меня есть всего несколько минут, чтобы определиться с лучшим набором функций.
jmmcnew
1
Вы пробовали лассо или эластичную сетку? пакеты: лассо, glmnet. Эти методы могут «выбирать» некоторые переменные на ходу.
deps_stats

Ответы:

3

Если идентификация наиболее релевантных переменных не является ключевой целью анализа, часто лучше вообще не делать какого-либо выбора признаков и использовать регуляризацию для предотвращения чрезмерной подгонки. Выбор функции - сложная процедура, и слишком легко переопределить критерий выбора функции, поскольку существует много степеней свободы. LASSO и эластичная сетка являются хорошим компромиссом, достигают разреженности за счет регуляризации, а не путем прямого выбора характеристик, поэтому они менее подвержены этой конкретной форме переоснащения.

Дикран Сумчатый
источник
0

Лассо действительно хороший. Простые вещи, такие как начинать с нуля и добавлять их один за другим, отсортированные по «полезности» (через перекрестную проверку), также хорошо работают на практике. Это иногда называется поэтапным выбором прямой связи.

Обратите внимание, что проблема выбора подмножества довольно независима от типа классификации / регрессии. Просто непараметрические методы могут быть медленными и поэтому требуют более интеллектуальных методов отбора.

Книга «Элементы статистического обучения» Т. Хасти дает хороший обзор.

Мистер Уайт
источник