Существует много способов выполнения регуляризации - например, регуляризация на основе норм , и . Согласно Friedman Hastie & Tibsharani , лучший регуляризатор зависит от проблемы: а именно от природы истинной целевой функции, конкретной используемой основы, отношения сигнал / шум и размера выборки.
Есть ли эмпирические исследования, сравнивающие методы и эффективность различных методов регуляризации?
r
regression
machine-learning
regularization
Рам Ахлувалия
источник
источник
Ответы:
Давайте рассмотрим штрафную линейную модель.
казнь не очень используется и часто заменяется нормой, математически более гибким.L0 L1
регуляризация обладает свойством построить редкую модель. Это означает, что только несколько переменных будут иметь ненулевой коэффициент регрессии. Это особенно используется, если вы предполагаете, что только несколько переменных оказывают реальное влияние на выходные переменные. Если есть очень коррелированные переменные, только одна из них будет выбрана с коэффициентом, отличным от 0.L1
штраф, как если добавить значение по диагонали входной матрицы. Это может быть использовано, например, в ситуациях, когда количество переменных больше, чем количество выборок. Для того чтобы получить квадратную матрицу. С штрафом нормы все переменные имеют ненулевой коэффициент регрессии.L2 λ L2
источник
Несколько дополнений к ответу @Donbeo
1) Норма L0 не является нормой в истинном смысле. Это число ненулевых записей в векторе. Эта норма явно не является выпуклой нормой и не является нормой в истинном смысле. Следовательно, вы можете увидеть такие термины, как L0 «норма». Это становится комбинаторной проблемой и, следовательно, NP трудным.
2) Норма L1 дает разреженное решение (ищите LASSO). Кандес, Донохо и т. Д. Имеют основополагающие результаты, которые показывают, что если истинное решение действительно скудное, то штрафные методы L1 восстановят его. Если базовое решение не является разреженным, вы не получите базовое решение в случаях, когда p >> n. Есть хорошие результаты, которые показывают, что Лассо является последовательным.
3) Существуют такие методы, как эластичная сеть от Zhou и Hastie, которые объединяют штрафованные решения L2 и L1.
источник