Почему проксимальный градиентный спуск вместо простых субградиентных методов для Лассо?

9

Я думал решить Лассо с помощью ванильных субградиентных методов. Но я читал людей, предлагающих использовать проксимальный градиентный спуск. Может ли кто-нибудь подчеркнуть, почему для лассо используются проксимальный GD вместо ванильных субградиентных методов?

CKM
источник

Ответы:

14

Приближенное решение действительно можно найти для лассо, используя субградиентные методы. Например, скажем, мы хотим минимизировать следующую функцию потерь:

f(w;λ)=yXw22+λw1

Градиент штрафного члена равен для и для , но штрафной член недифференцируем в . Вместо этого мы можем использовать субградиент , который такой же, но имеет значение для .λwi<0λwi>00λsgn(w)0wi=0

Соответствующий субградиент для функции потерь:

g(w;λ)=2XT(yXw)+λsgn(w)

Мы можем минимизировать функцию потерь, используя подход, аналогичный градиентному спуску, но используя субградиент (который равен градиенту везде, кроме , где градиент не определен). Решение может быть очень близко к истинному решению Лассо, но может не содержать точных нулей - там, где веса должны быть равны нулю, вместо этого они принимают очень малые значения. Это отсутствие истинной редкости является одной из причин не использовать субградиентные методы для лассо. Выделенные решатели используют преимущества структуры проблемы для создания действительно разреженных решений вычислительно эффективным способом. Эта почта0говорит, что, помимо создания разреженных решений, специализированные методы (включая методы проксимального градиента) имеют более высокую скорость сходимости, чем субградиентные методы. Он дает некоторые ссылки.

user20160
источник