В моем классе машинного обучения мы узнали о том, как регрессия LASSO очень хороша при выполнении выбора функций, поскольку она использует регуляризацию.
Мой вопрос: люди обычно используют модель LASSO только для выбора функций (а затем переходят к сбросу этих функций в другую модель машинного обучения), или они обычно используют LASSO для выполнения выбора функций и регрессии?
Например, предположим, что вы хотите выполнить регрессию гребня, но вы считаете, что многие из ваших функций не очень хороши. Было бы разумно запустить LASSO, взять только те функции, которые не обнуляются алгоритмом, а затем использовать только те, которые выводят ваши данные в модель регрессии гребня? Таким образом, вы получаете преимущество регуляризации для выполнения выбора функций, а также преимущество регуляризации l 2 для уменьшения переоснащения. (Я знаю, что это в основном составляет Elastic Net Regression, но кажется, что вам не нужно иметь оба члена l 1 и l 2 в целевой функции окончательной регрессии.)
Помимо регрессии, является ли это мудрой стратегией при выполнении задач классификации (с использованием SVM, нейронных сетей, случайных лесов и т. Д.)?
Ответы:
Почти любой подход, который делает некоторую форму выбора модели, а затем проводит дальнейший анализ, как если бы выбор модели ранее не проводился, обычно имеет плохие пропорции. Если нет убедительных теоретических аргументов, подкрепленных, например, данными обширных исследований моделирования для реалистичных размеров выборки и соотношения характеристик и размера выборки, чтобы показать, что это исключение, вполне вероятно, что такой подход будет иметь неудовлетворительные свойства. Я не знаю ни одного такого положительного доказательства такого подхода, но, возможно, кто-то еще. Учитывая, что существуют разумные альтернативы, которые достигают всех желаемых целей (например, эластичная сеть), этот подход трудно оправдать, используя вместо этого такой подозрительный специальный подход.
источник
Помимо всех ответов выше: можно вычислить точный тест перестановки chi2 для таблиц 2x2 и rxc. Вместо того, чтобы сравнивать наблюдаемое нами значение статистики хи-квадрат с асимптотическим распределением хи-квадрат, нам нужно сравнить его с точным распределением перестановок. Мы должны переставлять наши данные всеми возможными способами, сохраняя поля строк и столбцов постоянными. Для каждого переставленного набора данных мы вычислили статистику chi2. Затем мы сравниваем наш наблюдаемый chi2 со (отсортированной) статистикой chi2. Ранжирование реальной статистики теста среди перестановочной статистики chi2 дает p-значение.
источник