Использование LASSO только для выбора функций

10

В моем классе машинного обучения мы узнали о том, как регрессия LASSO очень хороша при выполнении выбора функций, поскольку она использует регуляризацию.L1

Мой вопрос: люди обычно используют модель LASSO только для выбора функций (а затем переходят к сбросу этих функций в другую модель машинного обучения), или они обычно используют LASSO для выполнения выбора функций и регрессии?

Например, предположим, что вы хотите выполнить регрессию гребня, но вы считаете, что многие из ваших функций не очень хороши. Было бы разумно запустить LASSO, взять только те функции, которые не обнуляются алгоритмом, а затем использовать только те, которые выводят ваши данные в модель регрессии гребня? Таким образом, вы получаете преимущество регуляризации для выполнения выбора функций, а также преимущество регуляризации l 2 для уменьшения переоснащения. (Я знаю, что это в основном составляет Elastic Net Regression, но кажется, что вам не нужно иметь оба члена l 1 и l 2 в целевой функции окончательной регрессии.)L1L2L1L2

Помимо регрессии, является ли это мудрой стратегией при выполнении задач классификации (с использованием SVM, нейронных сетей, случайных лесов и т. Д.)?

Райан
источник
1
Да, использование лассо для выбора функций для других моделей - хорошая идея. В качестве альтернативы, выбор объектов на основе дерева может также передаваться другим моделям
karthikbharadwaj
1
Лассо выполняет выбор объектов только в линейных моделях - он не проверяет взаимодействия высшего порядка или нелинейность в предикторах. Пример того, как это может быть важно: stats.stackexchange.com/questions/164048/… Ваш пробег может отличаться.
Sycorax говорит восстановить Monica

Ответы:

11

Почти любой подход, который делает некоторую форму выбора модели, а затем проводит дальнейший анализ, как если бы выбор модели ранее не проводился, обычно имеет плохие пропорции. Если нет убедительных теоретических аргументов, подкрепленных, например, данными обширных исследований моделирования для реалистичных размеров выборки и соотношения характеристик и размера выборки, чтобы показать, что это исключение, вполне вероятно, что такой подход будет иметь неудовлетворительные свойства. Я не знаю ни одного такого положительного доказательства такого подхода, но, возможно, кто-то еще. Учитывая, что существуют разумные альтернативы, которые достигают всех желаемых целей (например, эластичная сеть), этот подход трудно оправдать, используя вместо этого такой подозрительный специальный подход.

Бьерн
источник
3
согласен ... суть в том, что все должно соответствовать структуре перекрестной проверки ... поэтому вам нужно выполнить некоторую вложенную перекрестную проверку, чтобы выполнить две отдельные регуляризации (в противном случае у вас возникнут проблемы), а вложенная перекрестная проверка использует меньше данных для каждая часть.
seanv507
1

Помимо всех ответов выше: можно вычислить точный тест перестановки chi2 для таблиц 2x2 и rxc. Вместо того, чтобы сравнивать наблюдаемое нами значение статистики хи-квадрат с асимптотическим распределением хи-квадрат, нам нужно сравнить его с точным распределением перестановок. Мы должны переставлять наши данные всеми возможными способами, сохраняя поля строк и столбцов постоянными. Для каждого переставленного набора данных мы вычислили статистику chi2. Затем мы сравниваем наш наблюдаемый chi2 со (отсортированной) статистикой chi2. Ранжирование реальной статистики теста среди перестановочной статистики chi2 дает p-значение.

Stats_Monkey
источник
Не могли бы вы добавить детали к своему ответу, пожалуйста? В его нынешнем виде неясно, как можно рассчитать точный тест chi2.
Антуан Вернет