Почему проксимальный градиентный спуск вместо простых субградиентных методов для Лассо?

Приближенное решение действительно можно найти для лассо, используя субградиентные методы. Например, скажем, мы хотим минимизировать следующую функцию потерь:

f (w; λ) = ‖ y - X w ‖_{2}^{2} + λ ‖ w ‖_{1}

$f(w; \lambda) = \| y - Xw \|_2^2 + \lambda \|w\|_1$

Градиент штрафного члена равен для и для , но штрафной член недифференцируем в . Вместо этого мы можем использовать субградиент , который такой же, но имеет значение для . $-\lambda$ $w_i < 0$ $\lambda$ $w_i > 0$ $0$ $\lambda \text{sgn}(w)$ $0$ $w_i = 0$

Соответствующий субградиент для функции потерь:

g (w; λ) = - 2 X^{T} (y - X w) + λ sgn (w)

$g(w; \lambda) = -2X^T (y - X w) + \lambda \text{sgn}(w)$

Мы можем минимизировать функцию потерь, используя подход, аналогичный градиентному спуску, но используя субградиент (который равен градиенту везде, кроме , где градиент не определен). Решение может быть очень близко к истинному решению Лассо, но может не содержать точных нулей - там, где веса должны быть равны нулю, вместо этого они принимают очень малые значения. Это отсутствие истинной редкости является одной из причин не использовать субградиентные методы для лассо. Выделенные решатели используют преимущества структуры проблемы для создания действительно разреженных решений вычислительно эффективным способом. Эта почта $0$ говорит, что, помимо создания разреженных решений, специализированные методы (включая методы проксимального градиента) имеют более высокую скорость сходимости, чем субградиентные методы. Он дает некоторые ссылки.

user20160
источник

Почему проксимальный градиентный спуск вместо простых субградиентных методов для Лассо?

Ответы: