Примечание: я знаю, что у L1 есть свойство выбора функции. Я пытаюсь понять, какой из них выбрать, когда выбор функции совершенно не имеет значения.
- Как решить, какую регуляризацию (L1 или L2) использовать?
- Каковы плюсы и минусы каждой регуляризации L1 / L2?
- Рекомендовано ли вначале делать выбор объектов с использованием L1, а затем применять L2 к этим выбранным переменным?
regression
lasso
regularization
ridge-regression
GeorgeOfTheRF
источник
источник
Ответы:
Какова твоя цель? И то, и другое может улучшить обобщение модели, штрафуя коэффициенты, так как объекты с противоположными отношениями к результату могут «компенсировать» друг друга (большое положительное значение уравновешивается большим отрицательным значением). Это может возникнуть при наличии коллинеарных элементов. Небольшие изменения в данных могут привести к резкому изменению параметров (высокая оценка дисперсии). Наказание может ограничить оба коэффициента, чтобы быть меньше. (Hastie et al. Элементы статистического обучения , 2-е издание, стр. 63)
Регуляризация L1 может решить проблему мультиколлинеарности, ограничивая норму коэффициента и закрепляя некоторые значения коэффициента до 0. В вычислительном отношении регрессия Лассо (регрессия со штрафом L1) представляет собой квадратичную программу, для решения которой требуются некоторые специальные инструменты. Когда у вас больше возможностей, чем наблюдений , лассо будет сохранять не более ненулевых коэффициентовN N . В зависимости от контекста это может быть не тем, что вы хотите.
Регуляризация L1 иногда используется как метод выбора признаков. Предположим, у вас есть какое-то жесткое ограничение на количество функций, которые вы можете использовать (потому что сбор данных для всех функций дорог, или у вас жесткие инженерные ограничения на количество значений, которые вы можете хранить, и т. Д.). Вы можете попытаться настроить штраф L1, чтобы достичь желаемого количества ненулевых функций.
Регуляризация L2 может решить проблему мультиколлинеарности, ограничивая норму коэффициента и сохраняя все переменные. Маловероятно, что коэффициент будет точно равен 0. Это не обязательно является недостатком, если по какой-то причине не важен вектор разреженных коэффициентов.
В условиях регрессии это «классическое» решение проблемы оценки регрессии с большим количеством функций, чем наблюдений. Регуляризация L2 может оценить коэффициент для каждого признака, даже если имеется больше признаков, чем наблюдений (действительно, это было первоначальной мотивацией для «регрессии гребня»).
В качестве альтернативы эластичная сеть допускает регуляризацию L1 и L2 в качестве особых случаев. Типичный пример использования данных в отрасли для специалистов по обработке данных заключается в том, что вы просто хотите выбрать лучшую модель, но вам не обязательно все равно, будет ли она наказана с использованием L1, L2 или обоих. Эластичная сетка хороша в таких ситуациях.
Я не знаком с публикацией, предлагающей конвейер L1-then-L2, но это, вероятно, просто невежество с моей стороны. В этом нет ничего плохого. Я бы провел обзор литературы.
Существует несколько примеров подобных «поэтапных» трубопроводов. Одним из них является «расслабленное лассо», которое применяет регрессию лассо дважды , один раз, чтобы выбрать из большой группы небольшую группу признаков, и второй, чтобы оценить коэффициенты для использования в модели. При этом используется перекрестная проверка на каждом этапе, чтобы выбрать величину штрафа. Причина заключается в том, что на первом этапе вы перекрестно проверяете и, скорее всего, выберете большое наказание, чтобы отсеять нерелевантные предикторы; на втором этапе вы перекрестно проверяете и, скорее всего, выберете меньшее наказание (и, следовательно, большие коэффициенты). Это кратко упоминается в « Элементах статистического обучения» со ссылкой на Николая Майнсхаузена («Расслабленное лассо». Вычислительная статистика и анализ данных). Том 52, Выпуск 1, 15 сентября 2007 года, стр. 374-393).
Пользователь @amoeba также предлагает конвейер L1-then-OLS; это может быть хорошо, потому что он имеет только 1 гиперпараметр для величины штрафа L1, поэтому потребуется меньше тратить.
Одна проблема, которая может возникнуть с любым «поэтапным» конвейером анализа, который выполняет некоторые этапы, а затем некоторые другие этапы по отдельности, заключается в том, что между этими различными алгоритмами нет «видимости», поэтому один процесс наследует любые данные, отслеживаемые на предыдущих этапах. Этот эффект не является незначительным; плохо продуманное моделирование может привести к появлению моделей мусора.
Один из способов застраховаться от побочных эффектов отслеживания данных - перекрестная проверка всех ваших вариантов. Однако повышенные вычислительные затраты могут оказаться непомерно высокими.
источник
Вообще говоря, если вы хотите получить оптимальный прогноз, используйте L2. Если вы хотите скупости на жертву предсказательной дискриминации, используйте L1. Но обратите внимание, что скупость может быть иллюзорной, например, повторение процесса лассо с использованием начальной загрузки часто выявляет значительную нестабильность в списке «выбранных» функций, особенно когда предикторы связаны друг с другом.
источник