Некоторые штрафные функции и аппроксимации хорошо изучены, такие как LASSO ( ) и Ридж ( ) и их сравнение в регрессии.
Вэньцзян [ 1 ] сравнил штраф Бриджа, когда с LASSO, но я не смог найти сравнение с регуляризацией Elastic Net, комбинацией штрафов LASSO и хребта, заданной как .∑ λ 2 ‖ β ‖ 2 + λ 1 ‖ β ‖ 1
Это интересный вопрос, потому что Elastic Net и этот конкретный мост имеют схожие формы ограничений. Сравните эти единичные окружности, используя разные метрики ( - степень расстояния Минковского ):
соответствует LASSO, для хребта, а p = 1.4 для одного возможного моста. Эластичная сеть была сгенерирована с равным весом на штрафах L_1 и L_2 . Эти цифры полезны, например, для определения разреженности (которой явно не хватает Bridge, а Elastic Net сохраняет его от LASSO).р = 1,4
Так как же сопоставить Bridge с с Elastic Net в отношении регуляризации (кроме разреженности)? Я особенно заинтересован в контролируемом обучении, поэтому, возможно, уместно обсуждение выбора / взвешивания функций. Геометрическая аргументация также приветствуется.
Возможно, что еще важнее, всегда ли эластичная сеть более желательна в этом случае?
РЕДАКТИРОВАТЬ: Есть этот вопрос Как решить, какую меру наказания использовать? любые общие рекомендации или правила большого пальца из учебника, в которых поверхностно упоминаются LASSO, Ridge, Bridge и Elastic Net, но нет попыток их сравнить.
источник
Ответы:
Чем отличается регрессия моста и эластичная сеть - это интересный вопрос, учитывая их одинаковые штрафы. Вот один из возможных подходов. Предположим, мы решили проблему регрессии моста. Затем мы можем спросить, как будет отличаться решение с упругой сеткой. Глядя на градиенты двух функций потерь, можно сказать нам кое-что об этом.
Мост регрессии
Скажем, - это матрица, содержащая значения независимой переменной ( n точек x d измерений), y - вектор, содержащий значения зависимой переменной, а w - вектор весов.X n d y w
Функция потерь штрафует норму весов с величиной λ b :ℓq λb
Градиент функции потерь:
обозначает мощность Адамара (то есть поэлементно), которая дает вектор, чей i- й элемент равен v c i . sgn ( w ) - это функция знака (применяется к каждому элементу w ). Градиент может быть неопределенным в нуле для некоторых значений q .v∘c i vci sgn(w) w q
Эластичная сетка
Функция потерь:
Это оштрафовывает норму весов с величиной λ 1 и норму ℓ 2 с величиной λ 2 . Эластичная сетчатая бумага называет минимизацию этой функции потерь «наивной эластичной сеткой», потому что она вдвое уменьшает вес. Они описывают улучшенную процедуру, в которой весы позже масштабируются, чтобы компенсировать двойную усадку, но я просто собираюсь проанализировать наивную версию. Об этом следует помнить.ℓ1 λ1 ℓ2 λ2
Градиент функции потерь:
Градиент не определен в нуле, когда потому что абсолютное значение в штрафе ℓ 1 там не дифференцируемо.λ1>0 ℓ1
Подходить
Скажем, мы выбираем веса которые решают проблему регрессии моста. Это означает, что градиент регрессии моста равен нулю в этой точке:w∗
Следовательно:
Мы можем подставить это в градиент упругой сети, чтобы получить выражение для градиента упругой сети при . К счастью, это больше не зависит напрямую от данных:w∗
Глядя на градиент эластичной сетки в точке мы можем сказать: учитывая, что регрессия моста сходится к весам w ∗ , как эластичная сеть хочет изменить эти веса?w∗ w∗
Это дает нам локальное направление и величину желаемого изменения, потому что градиент указывает в направлении самого крутого подъема и функция потерь будет уменьшаться, когда мы движемся в направлении, противоположном градиенту. Градиент может не указывать прямо на решение с эластичной сеткой. Но поскольку функция упругих чистых потерь является выпуклой, локальное направление / величина дает некоторую информацию о том, как решение с упругими сетями будет отличаться от решения с мостиковой регрессией.
Случай 1: проверка работоспособности
( ). Мостовая регрессия в этом случае эквивалентна обычным наименьшим квадратам (OLS), потому что величина штрафа равна нулю. Эластичная сеть эквивалентна регрессии гребня, потому что наказывается только норма ℓ 2 . На следующих графиках показаны различные решения для регрессии моста и как ведет себя градиент эластичной сетки для каждого из них.λb=0,λ1=0,λ2=1 ℓ2
Левый график: градиент упругой сети против веса регрессии моста по каждому измерению
Правый график: изменения эластичной сетки для весов регрессии моста (2d)
Эти графики показывают, что по сравнению с мостовой регрессией (в данном случае OLS) эластичная сеть (в данном случае регрессия гребня) хочет уменьшить вес до нуля. Желаемая величина усадки увеличивается с величиной веса. Если веса равны нулю, решения одинаковы. Интерпретация заключается в том, что мы хотим двигаться в направлении, противоположном градиенту, чтобы уменьшить функцию потерь. Например, скажем, регрессия моста сходится к положительному значению для одного из весов. Градиент эластичной сетки является положительным в этой точке, поэтому эластичная сеть хочет уменьшить этот вес. Если бы использовать градиентный спуск, мы бы предприняли шаги, пропорциональные по размеру градиенту (конечно, мы не можем технически использовать градиентный спуск, чтобы решить упругую сеть из-за недифференцируемости в нуле,
Случай 2: Подходящий мост и эластичная сетка
(q=1.4,λb=1,λ1=0.629,λ2=0.355
Штрафная поверхность
Вот контурный график общего штрафа, наложенного мостовой регрессией (q=1.4,λb=100 λ1=0.629,λ2=0.355
Градиент поведения
Мы можем видеть следующее:
Результаты качественно схожи, если мы изменим значениеq λb λ1,λ2
Случай 3: Несоответствующий мост и эластичная сетка
По сравнению с мостовой регрессией эластичная сеть хочет уменьшить малые веса до нуля и увеличить большие веса. В каждом квадранте есть один набор весов, где регрессия моста и решения с эластичной сеткой совпадают, но эластичная сеть хочет отойти от этой точки, если веса отличаются даже незначительно.
По сравнению с мостовой регрессией, эластичная сетка хочет увеличить малые веса и уменьшить большие веса. В каждом квадранте есть точка, в которой регрессия моста и решения с эластичной сеткой совпадают, и эластичная сеть хочет двигаться к этим весам из соседних точек.
источник