Вопрос новичка здесь. В настоящее время я выполняю непараметрическую регрессию, используя пакет np в R. У меня есть 7 функций, и я использую метод грубой силы, я определил лучшие 3. Но скоро у меня будет гораздо больше, чем 7 функций!
Мой вопрос заключается в том, каковы в настоящее время лучшие методы выбора признаков для непараметрической регрессии. И какие, если какие-либо пакеты реализуют методы. Спасибо.
Ответы:
Если идентификация наиболее релевантных переменных не является ключевой целью анализа, часто лучше вообще не делать какого-либо выбора признаков и использовать регуляризацию для предотвращения чрезмерной подгонки. Выбор функции - сложная процедура, и слишком легко переопределить критерий выбора функции, поскольку существует много степеней свободы. LASSO и эластичная сетка являются хорошим компромиссом, достигают разреженности за счет регуляризации, а не путем прямого выбора характеристик, поэтому они менее подвержены этой конкретной форме переоснащения.
источник
Лассо действительно хороший. Простые вещи, такие как начинать с нуля и добавлять их один за другим, отсортированные по «полезности» (через перекрестную проверку), также хорошо работают на практике. Это иногда называется поэтапным выбором прямой связи.
Обратите внимание, что проблема выбора подмножества довольно независима от типа классификации / регрессии. Просто непараметрические методы могут быть медленными и поэтому требуют более интеллектуальных методов отбора.
Книга «Элементы статистического обучения» Т. Хасти дает хороший обзор.
источник