Когда регуляризация L1 будет работать лучше, чем L2, и наоборот?

30

Примечание: я знаю, что у L1 есть свойство выбора функции. Я пытаюсь понять, какой из них выбрать, когда выбор функции совершенно не имеет значения.

  1. Как решить, какую регуляризацию (L1 или L2) использовать?
  2. Каковы плюсы и минусы каждой регуляризации L1 / L2?
  3. Рекомендовано ли вначале делать выбор объектов с использованием L1, а затем применять L2 к этим выбранным переменным?
GeorgeOfTheRF
источник
2
Обратите внимание, что «выбор объекта L1» следует скорее назвать регуляризацией пространства объектов; Есть много способов улучшить выбор функций, понимаемых как получение информации, которая имеет отношение к моделируемой проблеме.
@mbq: Мне любопытно, какие "намного лучшие методы" вы имели в виду здесь?
говорит амеба: восстанови монику
1
Как те, которые перечислены здесь .

Ответы:

31

Как решить, какую регуляризацию (L1 или L2) использовать?

Какова твоя цель? И то, и другое может улучшить обобщение модели, штрафуя коэффициенты, так как объекты с противоположными отношениями к результату могут «компенсировать» друг друга (большое положительное значение уравновешивается большим отрицательным значением). Это может возникнуть при наличии коллинеарных элементов. Небольшие изменения в данных могут привести к резкому изменению параметров (высокая оценка дисперсии). Наказание может ограничить оба коэффициента, чтобы быть меньше. (Hastie et al. Элементы статистического обучения , 2-е издание, стр. 63)

Каковы плюсы и минусы каждой регуляризации L1 / L2?

Регуляризация L1 может решить проблему мультиколлинеарности, ограничивая норму коэффициента и закрепляя некоторые значения коэффициента до 0. В вычислительном отношении регрессия Лассо (регрессия со штрафом L1) представляет собой квадратичную программу, для решения которой требуются некоторые специальные инструменты. Когда у вас больше возможностей, чем наблюдений , лассо будет сохранять не более ненулевых коэффициентовNN . В зависимости от контекста это может быть не тем, что вы хотите.

Регуляризация L1 иногда используется как метод выбора признаков. Предположим, у вас есть какое-то жесткое ограничение на количество функций, которые вы можете использовать (потому что сбор данных для всех функций дорог, или у вас жесткие инженерные ограничения на количество значений, которые вы можете хранить, и т. Д.). Вы можете попытаться настроить штраф L1, чтобы достичь желаемого количества ненулевых функций.

Регуляризация L2 может решить проблему мультиколлинеарности, ограничивая норму коэффициента и сохраняя все переменные. Маловероятно, что коэффициент будет точно равен 0. Это не обязательно является недостатком, если по какой-то причине не важен вектор разреженных коэффициентов.

В условиях регрессии это «классическое» решение проблемы оценки регрессии с большим количеством функций, чем наблюдений. Регуляризация L2 может оценить коэффициент для каждого признака, даже если имеется больше признаков, чем наблюдений (действительно, это было первоначальной мотивацией для «регрессии гребня»).

В качестве альтернативы эластичная сеть допускает регуляризацию L1 и L2 в качестве особых случаев. Типичный пример использования данных в отрасли для специалистов по обработке данных заключается в том, что вы просто хотите выбрать лучшую модель, но вам не обязательно все равно, будет ли она наказана с использованием L1, L2 или обоих. Эластичная сетка хороша в таких ситуациях.

Рекомендовано ли вначале делать выбор объектов с использованием L1, а затем применять L2 к этим выбранным переменным?

Я не знаком с публикацией, предлагающей конвейер L1-then-L2, но это, вероятно, просто невежество с моей стороны. В этом нет ничего плохого. Я бы провел обзор литературы.

Существует несколько примеров подобных «поэтапных» трубопроводов. Одним из них является «расслабленное лассо», которое применяет регрессию лассо дважды , один раз, чтобы выбрать из большой группы небольшую группу признаков, и второй, чтобы оценить коэффициенты для использования в модели. При этом используется перекрестная проверка на каждом этапе, чтобы выбрать величину штрафа. Причина заключается в том, что на первом этапе вы перекрестно проверяете и, скорее всего, выберете большое наказание, чтобы отсеять нерелевантные предикторы; на втором этапе вы перекрестно проверяете и, скорее всего, выберете меньшее наказание (и, следовательно, большие коэффициенты). Это кратко упоминается в « Элементах статистического обучения» со ссылкой на Николая Майнсхаузена («Расслабленное лассо». Вычислительная статистика и анализ данных). Том 52, Выпуск 1, 15 сентября 2007 года, стр. 374-393).

Пользователь @amoeba также предлагает конвейер L1-then-OLS; это может быть хорошо, потому что он имеет только 1 гиперпараметр для величины штрафа L1, поэтому потребуется меньше тратить.

Одна проблема, которая может возникнуть с любым «поэтапным» конвейером анализа, который выполняет некоторые этапы, а затем некоторые другие этапы по отдельности, заключается в том, что между этими различными алгоритмами нет «видимости», поэтому один процесс наследует любые данные, отслеживаемые на предыдущих этапах. Этот эффект не является незначительным; плохо продуманное моделирование может привести к появлению моделей мусора.

Один из способов застраховаться от побочных эффектов отслеживания данных - перекрестная проверка всех ваших вариантов. Однако повышенные вычислительные затраты могут оказаться непомерно высокими.

Sycorax говорит восстановить Монику
источник
Извините, я не последовал ответ на мой 3-й пункт. Вы можете объяснить?
GeorgeOfTheRF
1
Все дело в правильном учете оптимизма. По той же причине, по которой мы измеряем производительность вне данных выборки, необходимо выполнить все этапы фильтрации / предварительной обработки таким образом, чтобы не допустить утечки информации между этапами. Если вы сделаете выбор функции для всего набора данных, а затем проведете некоторый анализ, вы найдете сигнал в шуме.
Sycorax говорит восстановить Monica
Хорошо. Тогда каков рекомендуемый подход к выбору функции перед запуском модели ML?
GeorgeOfTheRF
3
Моя рекомендация - не надо. Посмотрите здесь пример того, как это может пойти не так: stats.stackexchange.com/questions/164048/… Но это достаточно отличается от вашего первоначального вопроса, поэтому вы должны просто задать новый вопрос. (Это в ваших интересах, так как вы сможете получить нового представителя по новому вопросу.)
Sycorax говорит восстановить Monica
3
(+1) Я не видел, чтобы L1-follow-by-L2 обсуждался в литературе, но для меня это имеет смысл. Существуют L1, за которыми следует OLS (также известный как «гибрид LARS-OLS») и L1, за которыми следует L1 (расслабленное лассо), поэтому можно также рассмотреть L1, за которыми следует L2. Поскольку оба гиперпараметра проходят перекрестную проверку, это должна быть жизнеспособная стратегия регуляризации.
амеба говорит восстановить Монику
19

Вообще говоря, если вы хотите получить оптимальный прогноз, используйте L2. Если вы хотите скупости на жертву предсказательной дискриминации, используйте L1. Но обратите внимание, что скупость может быть иллюзорной, например, повторение процесса лассо с использованием начальной загрузки часто выявляет значительную нестабильность в списке «выбранных» функций, особенно когда предикторы связаны друг с другом.

Фрэнк Харрелл
источник
«Оптимальное прогнозирование» - Вы имеете в виду, что L2 в целом дает лучшую точность по невидимым данным?
GeorgeOfTheRF
3
Да, особенно в отношении предиктивной дискриминации.
Фрэнк Харрелл
1
+1 к этому комментарию (и ответу). Я сталкивалась с этим явлением быть , как правило , лучше с точкой зрения прогностической дискриминации (т.е.. Классификационные задачи) , чем и это всегда вид раздражает меня .. я самозагрузка интенсивно только для моего упругого чистого предложить почти или полностью конек решение. :)L2L1
usεr11852 говорит восстановить Monic
2
Предсказательная дискриминация является гораздо более общим понятием, чем классификация. Но, на ваш , обычно лучше, чем потому что он не тратит какую-либо информацию, пытаясь быть скупой. Это позволяет много маленьких эффектов, чтобы сложить. L2L1
Фрэнк Харрелл
Круто, спасибо за разъяснения. Это имеет смысл. (Да, вы правы; я связываю ПД с мерами, связанными с вероятностью правильной классификации и / или упорядочения предметов с точки зрения риска, поэтому я быстро сказал «классификационные задачи»; мой плохой, я должен быть более осторожным.)
usεr11852 говорит восстановить Monic