Почему мы видим только регуляризацию

36

Мне просто любопытно, почему обычно есть только регуляризация норм и . Есть ли доказательства того, почему они лучше?L1L2

user10024395
источник
13
(+1) Я не исследовал этот вопрос специально, но опыт работы с подобными ситуациями показывает, что может быть хороший качественный ответ: все нормы, которые являются вторыми дифференцируемыми в источнике, будут локально эквивалентны друг другу, из которых норма это стандарт. Все остальные нормы не будут дифференцируемыми в источнике, и L 1 качественно воспроизводит их поведение. Это охватывает гамму. По сути, линейная комбинация нормы L 1 и L 2 приближает любую норму ко второму порядку в начале координат - и это то, что имеет наибольшее значение в регрессии без каких-либо невязок. L2L1L1L2
uuber
3
Да, это по существу теорема Тейлора.
whuber
4
Предпосылка вопроса ложна: используются другие -нормы, хотя и гораздо реже. p
Firebug
3
Линейная комбинация, которую упоминает @whuber, часто называется эластичной сеткой .
Лука
4
Кроме того, среди норм Lp также получает много пробега. L
user795305

Ответы:

28

В дополнение к комментариям @ whuber (*).

Книга Hastie и др. Статистическое обучение со Sparsity обсуждает это. Они также используют то, что называется «нормой» (кавычки, потому что это не норма в строгом математическом смысле (**)), которая просто подсчитывает число ненулевых компонентов вектора.L0

В этом смысле норма используется для выбора переменной, но она вместе с нормами l q с q < 1 не является выпуклой, поэтому ее трудно оптимизировать. Они утверждают (аргумент, который, я думаю, исходит от Донохоу в сжатых ощущениях), что норма L 1 , то есть лассо, является наилучшей выпуклостью L 0 «нормы» («ближайшая выпуклая релаксация выбора лучшего подмножества»). Эта книга также ссылается на некоторые применения других норм L q . Единичный шар в l q -норме с q < 1 выглядит следующим образомL0lqq<1L1L0Lqlqq<1

enter image description here

(изображение из Википедии), в то время как графическое объяснение того, почему лассо может обеспечить выбор переменной,

enter image description here

Это изображение из указанной выше книги. Вы можете видеть, что в случае лассо (единичный шарик, нарисованный как ромб) гораздо более вероятно, что эллипсоидальные (сумма квадратов) контуры сначала коснутся алмаза в одном из углов. В невыпуклом случае (фигура первого единичного шарика) еще более вероятно, что первое касание между эллипсоидом и единичным шариком будет в одном из углов, так что в этом случае выделение переменной будет выделяться даже больше, чем лассо.

Если вы попробуете это «лассо с невыпуклым штрафом» в Google, вы получите много работ, в которых будут возникать лассо-подобные проблемы с невыпуклым штрафом, как с q < 1 .lqq<1

(*) Для полноты я копирую комментарии Вубера здесь:

Я не исследовал этот вопрос специально, но опыт работы с подобными ситуациями показывает, что может быть хороший качественный ответ: все нормы, которые являются вторыми дифференцируемыми в источнике, будут локально эквивалентны друг другу, из которых норма является стандартом. Все остальные нормы не будут дифференцируемыми в источнике, и L 1 качественно воспроизводит их поведение. Это охватывает гамму. По сути, линейная комбинация нормы L 1 и L 2 приближает любую норму ко второму порядку в начале координат - и это то, что имеет наибольшее значение в регрессии без каких-либо невязок.L2L1L1L2

(**) У - «норма» отсутствует однородность, что является одной из аксиом для норм. Средство для гомогенности & alpha ; 0 , что | | & alpha ; х | | = & alpha ; | | х | | .l0α0αx=αx

Къетил б Халворсен
источник
1
@kjetilbhalvorsen Спасибо за ваш глубокий ответ. Я выбираю необычный надстрочный индекс, чтобы соответствовать вопросу и названию. Конечно, вы можете написать это так, как вы предпочитаете.
Ferdi
@kjetilbhalvorsen Можете ли вы немного расширить комментарий Уубер? Хорошо известно, что норма не дифференцируема в начале координат (например, рассмотрим x | x | ). Также не ясно, что подразумевается под «локальной эквивалентностью» норм. Ссылки необходимы, чтобы не сказать больше. L2x|x|
Оливье
@Olivier -норма дифференцируема в начале координат, вы думаете о 1 -норме. 21
Firebug
@ Firebug Нет. Я думаю о норме в 1 измерении, которая там такая же, как норма L 1 . Я что-то пропустил? L2L1
Оливье
2
@ Оливье О, ты на самом деле прав. Я не понял, потому что квадрат -норма фактически используется, и это дифференцируема всюду. 2
Firebug
12

Я думаю, что ответ на вопрос во многом зависит от того, как вы определяете «лучше». Если я правильно истолковываю, вы хотите знать, почему эти нормы появляются так часто по сравнению с другими вариантами. В этом случае ответ прост. Интуиция за регуляризацией заключается в том, что у меня есть какой-то вектор, и я бы хотел, чтобы этот вектор был в некотором смысле «маленьким». Как вы описываете размер вектора? Ну, у вас есть выбор:

  • Считаете ли вы, сколько элементов у него ?(L0)
  • Вы складываете все элементы ?(L1)
  • Вы измеряете, как долго «стрелка» ?(L2)
  • Используете ли вы размер самого большого элемента ?(L)

Вы можете использовать альтернативные нормы, такие как , но у них нет дружественных, физических интерпретаций, подобных приведенным выше.L3

L2L2

ex

В противном случае выбор нормы имеет очень субъективные последствия, и вы, как человек, который формулирует проблему, можете определить, что вы предпочитаете в оптимальном решении. Вас больше волнует, чтобы все компоненты в вашем векторе решений были одинаковыми по величине или чтобы размер самого большого компонента был как можно меньшим? Этот выбор будет зависеть от конкретной проблемы, которую вы решаете.

Красная панда
источник
10

L1L2L1

L2N-пространство, а также комплексная переменная норма . Причем Тихоновская регуляризация и гребневая регрессия , т. Е. Приложения, минимизирующие| |AИкс-б| |2+| |ΓИкс| |2, часто считаются L2 norms.

Wikipedia gives information about these and the other norms. Worth a mention are L0. The generalized Lp norm, the L norm also called the uniform norm.

Carl
источник