Мне просто любопытно, почему обычно есть только регуляризация норм и . Есть ли доказательства того, почему они лучше?
lasso
regularization
ridge-regression
user10024395
источник
источник
Ответы:
В дополнение к комментариям @ whuber (*).
Книга Hastie и др. Статистическое обучение со Sparsity обсуждает это. Они также используют то, что называется «нормой» (кавычки, потому что это не норма в строгом математическом смысле (**)), которая просто подсчитывает число ненулевых компонентов вектора.L0
В этом смысле норма используется для выбора переменной, но она вместе с нормами l q с q < 1 не является выпуклой, поэтому ее трудно оптимизировать. Они утверждают (аргумент, который, я думаю, исходит от Донохоу в сжатых ощущениях), что норма L 1 , то есть лассо, является наилучшей выпуклостью L 0 «нормы» («ближайшая выпуклая релаксация выбора лучшего подмножества»). Эта книга также ссылается на некоторые применения других норм L q . Единичный шар в l q -норме с q < 1 выглядит следующим образомL0 lq q<1 L1 L0 Lq lq q<1
(изображение из Википедии), в то время как графическое объяснение того, почему лассо может обеспечить выбор переменной,
Это изображение из указанной выше книги. Вы можете видеть, что в случае лассо (единичный шарик, нарисованный как ромб) гораздо более вероятно, что эллипсоидальные (сумма квадратов) контуры сначала коснутся алмаза в одном из углов. В невыпуклом случае (фигура первого единичного шарика) еще более вероятно, что первое касание между эллипсоидом и единичным шариком будет в одном из углов, так что в этом случае выделение переменной будет выделяться даже больше, чем лассо.
Если вы попробуете это «лассо с невыпуклым штрафом» в Google, вы получите много работ, в которых будут возникать лассо-подобные проблемы с невыпуклым штрафом, как с q < 1 .lq q<1
(*) Для полноты я копирую комментарии Вубера здесь:
(**) У - «норма» отсутствует однородность, что является одной из аксиом для норм. Средство для гомогенности & alpha ; ≥ 0 , что | | & alpha ; х | | = & alpha ; | | х | | .l0 α≥0 ∥αx∥=α∥x∥
источник
Я думаю, что ответ на вопрос во многом зависит от того, как вы определяете «лучше». Если я правильно истолковываю, вы хотите знать, почему эти нормы появляются так часто по сравнению с другими вариантами. В этом случае ответ прост. Интуиция за регуляризацией заключается в том, что у меня есть какой-то вектор, и я бы хотел, чтобы этот вектор был в некотором смысле «маленьким». Как вы описываете размер вектора? Ну, у вас есть выбор:
Вы можете использовать альтернативные нормы, такие как , но у них нет дружественных, физических интерпретаций, подобных приведенным выше.L3
В противном случае выбор нормы имеет очень субъективные последствия, и вы, как человек, который формулирует проблему, можете определить, что вы предпочитаете в оптимальном решении. Вас больше волнует, чтобы все компоненты в вашем векторе решений были одинаковыми по величине или чтобы размер самого большого компонента был как можно меньшим? Этот выбор будет зависеть от конкретной проблемы, которую вы решаете.
источник
Wikipedia gives information about these and the other norms. Worth a mention areL0 . The generalized Lp norm, the L∞ norm also called the uniform norm.
источник