В чем разница между градиентным спуском на основе импульса и ускоренным градиентным спуском Нестерова?

48

Таким образом, градиентный спуск на основе импульса работает следующим образом:

$v=self.momentum*m-lr*g$

где - это предыдущее обновление веса, а - текущий градиент относительно параметров , - скорость обучения, а - постоянная величина. $m$ $g$ $p$ $lr$ $self.momentum$

$p_{new} = p + v = p + self.momentum * m - lr * g$

и ускоренный градиентный спуск Нестерова работает следующим образом:

$p_{new} = p + self.momentum * v - lr * g$

что эквивалентно:

$p_{new} = p + self.momentum * (self.momentum * m - lr * g ) - lr * g$

или же

$p_{new} = p + self.momentum^2 * m - (1 + self.momentum) * lr * g$

источник: https://github.com/fchollet/keras/blob/master/keras/optimizers.py

Поэтому мне кажется, что ускоренный градиентный спуск Нестерова просто придает больший вес члену lr * g в течение предыдущего члена m изменения веса (по сравнению с простым старым импульсом). Правильно ли это толкование?

optimization gradient-descent яблочный сидр
источник

7

Будет ли просить вас ввести слишком много?

L A T E X

$\LaTeX$

Родриго де Азеведо

35

Ответ Ареша о импульсе Нестерова правильный, но код, по сути, делает то же самое. Таким образом, в этом отношении метод Нестерова придает больший вес термину и меньшему весу члену . $lr \cdot g$ $v$

Чтобы проиллюстрировать, почему реализация Keras верна, я заимствую пример Джеффри Хинтона .

Метод Нестерова использует подход «азартная игра-> коррекция». Коричневый вектор - это (gamble / jump), красный вектор - (исправление), а зеленый вектор - это (куда мы должны перейти). - это функция градиента.
$v' = m \cdot v - lr \cdot \nabla(w+m \cdot v)$
$w' = w + v'$
$m \cdot v$ $-lr \cdot \nabla(w+m \cdot v)$ $m \cdot v-lr \cdot \nabla(w+m \cdot v)$ $\nabla(\cdot)$

Код выглядит иначе, потому что он перемещается по коричневому вектору вместо зеленого , поскольку метод Нестерова требует только вычисления вместо . Поэтому на каждом этапе мы хотим $\nabla(w+m \cdot v) =: g$ $\nabla(w)$

вернуться туда, где мы были $(1 \rightarrow 0)$
следуйте зеленому вектору туда, где мы должны быть $(0 \rightarrow 2)$
сделать еще одну игру $(2 \rightarrow 3)$

Код Кераса, написанный для краткости: , и мы выполним некоторые математические вычисления $p' = p + m \cdot (m \cdot v - lr \cdot g) - lr \cdot g$

$\begin{align} p' &= p - m \cdot v + m \cdot v + m \cdot (m \cdot v - lr \cdot g) - lr \cdot g\\ &= p - m \cdot v + m \cdot v - lr \cdot g + m \cdot (m \cdot v - lr \cdot g)\\ &= p - m \cdot v + (m \cdot v-lr \cdot g) + m \cdot (m \cdot v-lr \cdot g) \end{align}$

и это ровно . На самом деле исходный код использует более короткий путь . $1 \rightarrow 0 \rightarrow 2 \rightarrow 3$ $1 \rightarrow 2 \rightarrow 3$

Фактическое оценочное значение (зеленый вектор) должно быть , которое должно быть близко к когда обучение сходится. $p - m \cdot v$ $p$

dontloo
источник

2

@youkaichao попробуйте это youtube.com/watch?v=LdkkZglLZ0Q

смотрите

13

Мне кажется, что на вопрос ОП уже был дан ответ, но я постараюсь дать другое (надеюсь, интуитивное) объяснение об импульсе и разнице между классическим импульсом (CM) и ускоренным градиентом Нестерова (NAG).

tl; dr
Просто перейдите к изображению в конце.
Рассуждения NAG_ball - это еще одна важная часть, но я не уверен, что без всего остального это будет легко понять.

CM и NAG оба являются методами выбора следующего вектора в пространстве параметров, чтобы найти минимум функции . $\theta$ $f(\theta)$

В других новостях, в последнее время появились эти два диких разумных шара:

Оказывается (в соответствии с наблюдаемым поведением шаров и согласно статье « О важности инициализации и импульса в глубоком обучении» , которая описывает CM и NAG в разделе 2), что каждый шар ведет себя точно так же, как один из этих методов , и поэтому мы бы назвали их «CM_ball» и «NAG_ball»:
(NAG_ball улыбается, потому что он недавно наблюдал конец лекции 6c - Метод импульса, Джеффри Хинтон с Нитишем Шриваставой и Кевином Сверским , и, таким образом, верит больше, чем когда-либо, что его поведение приводит к поиску минимума быстрее.)

Вот как ведут себя шары:

Вместо того, чтобы катиться как обычные шары, они прыгают между точками в пространстве параметров.
Пусть будет шара в пространстве параметров, а будет прыжок шара . Тогда переход между точками в пространстве параметров может быть описан как . $\theta_t$ $t$ $v_t$ $t$ $\theta_t=\theta_{t-1}+v_t$
Они не только прыгают вместо броска, но и их прыжки особенные: каждый прыжок на самом деле является двойным прыжком, который представляет собой композицию из двух прыжков: $v_t$
- Momentum Jump - прыжок, который использует импульс от , последнего двойного прыжка. Небольшая доля импульса теряется из-за трения с воздухом. Пусть будет частью оставшегося импульса (шары довольно аэродинамические, поэтому обычно ). Тогда скачок импульса равен . (И в CM, и в NAG - это гиперпараметр, называемый «коэффициент импульса».) $v_{t-1}$
  $v_{t-1}$
  $\mu$ $0.9 \le \mu <1$ $\mu v_{t-1}$
  $\mu$
- Наклонный прыжок - прыжок, который напоминает мне о результате размещения нормального шара на поверхности - мяч начинает катиться в направлении самого крутого склона вниз, в то время как чем круче склон, тем больше ускорение.
  Аналогичным образом, прыжок с уклона идет в направлении самого крутого склона вниз (в направлении, противоположном градиенту), и чем больше уклон, тем больше скачок.
  Наклонный прыжок также зависит от , уровня готовности мяча (естественно, ): чем больше стремление к мячу, тем дальше будет проходить наклонный прыжок. (И в CM, и в NAG - это гиперпараметр, называемый «скорость обучения».) Пусть $\epsilon$ $\epsilon>0$
  $\epsilon$
  $g$ быть градиентом в начальной точке прыжка с наклона. Тогда скачок наклона равен . $-\epsilon g$
Таким образом, для обоих шаров двойной прыжок равен: Единственная разница между шарами - это порядок двух прыжков в двойном прыжке. $v_{t} = μ v_{t - 1} - ϵ g$ $v_t=\mu v_{t-1} -\epsilon g$
CM_ball не думал, что это имело значение, поэтому он решил всегда начинать с Slope Jump.
Таким образом, двойной прыжок CM_ball: $v_{t} = μ v_{t - 1} - ϵ \nabla f (θ_{t - 1})$ $v_{t}=\mu v_{t-1}-\epsilon\nabla f\left(\theta_{t-1}\right)$
Напротив, NAG_ball некоторое время думал об этом, а затем решил всегда начинать с Momentum Jump.
Поэтому двойной прыжок NAG_ball:
$v_{t} = μ v_{t - 1} - ϵ \nabla f (θ_{t - 1} + μ v_{t - 1})$

NAG_ball рассуждения
- Какой бы прыжок ни пришел первым, мой Momentum Jump будет таким же.
  Поэтому я должен рассмотреть ситуацию так, как будто я уже совершил Momentum Jump, и я собираюсь совершить прыжок с уклона.
- Теперь мой Прыжок по уклону концептуально начнется отсюда, но я могу выбрать, будет ли рассчитываться, каким будет мой Прыжок по уклону, как если бы он начался до Momentum Jump, или как если бы он начался здесь.
- Думая об этом таким образом, становится совершенно ясно, что последний лучше, как правило, градиент в некоторой точке приблизительно указывает вам направление в направлении от к минимуму (с относительно правильной величиной), в то время как градиент в некотором другая точка менее вероятно направит вас в направлении от к минимуму (с относительно правильной величиной). $\theta$ $\theta$ $\theta$

Наконец, вчера мне посчастливилось наблюдать, как каждый шарик прыгает в одномерном пространстве параметров.
Я думаю, что взгляд на их изменяющиеся позиции в пространстве параметров не сильно поможет в достижении интуиции, так как это пространство параметров является линией.
Поэтому вместо каждого шара я нарисовал двухмерный график, на котором горизонтальная ось равна . Затем я нарисовал используя черную кисть, а также нарисовал каждый шарик в его первых позициях вместе с числами, чтобы показать хронологический порядок позиций. Наконец, я нарисовал зеленые стрелки, чтобы показать расстояние в пространстве параметров (т. Е. Горизонтальное расстояние на графике) для каждого скачка импульса и скачка наклона. $\theta$
$f(\theta)$ $7$

Приложение 1 - Демонстрация рассуждений NAG_ball

В этом завораживающем GIF Алек Рэдфорд , вы можете увидеть, что NAG работает, возможно, лучше, чем CM ("Momentum" в GIF).
(Минимум - это то, где находится звезда, а кривые - это контурные линии . Объяснение контурных линий и почему они перпендикулярны градиенту, см. В видео 1 и 2 легендарной 3Blue1Brown .)

Анализ конкретного момента демонстрирует рассуждения NAG_ball:

(Длинная) фиолетовая стрелка является подэтапом импульса.
Прозрачная красная стрелка является подэтапом градиента, если он начинается до подэтапа импульса.
Черная стрелка является подэтапом градиента, если он начинается после подэтапа импульса.
КМ попадет в цель темно-красной стрелки.
NAG попадет в цель черной стрелки.

Приложение 2 - вещи / термины, которые я придумал (для интуиции)

CM_ball
NAG_ball
Двойной прыжок
Импульсный прыжок
Импульс теряется из-за трения с воздухом
Наклонный прыжок
Рвение мяча
Я наблюдаю за шарами вчера

Приложение 3 - термины, которые я не составил

Как ведут себя CM и NAG:
- Я в основном зависел от раздела 2 в статье « О важности инициализации и импульса в глубоком обучении» .
- Кроме того, обзор алгоритмов оптимизации градиентного спуска (сообщение в блоге Себастьяна Рудера) действительно помог мне понять CM и NAG (и многое другое).
Коэффициент импульса - термин, используемый по крайней мере в статье
Скорость обучения

Орен Мильман
источник

1

Я нахожу часть из «Вот как ведут себя шары: ...», чтобы «указать вам направление от θ до минимума (с относительно правильной величиной)». отлично, как объяснение разницы.

Поэт Модит

12

Я так не думаю.

Есть хорошее описание свойств Nesterov Momentum (aka Nesterov Accelerated Gradient), например, в Sutskever, Martens и др. «О важности инициализации и импульса в глубоком обучении» 2013 .

Основное отличие состоит в том, что в классическом импульсе вы сначала корректируете свою скорость, а затем делаете большой шаг в соответствии с этой скоростью (а затем повторяете), но в импульсе Нестерова вы сначала делаете шаг в направлении скорости, а затем делаете поправку к вектору скорости на основе на новом месте (затем повторите).

т.е. Классический импульс:

vW(t+1) = momentum.*Vw(t) - scaling .* gradient_F( W(t) )
W(t+1) = W(t) + vW(t+1)

В то время как импульс Нестеров заключается в следующем:

vW(t+1) = momentum.*Vw(t) - scaling .* gradient_F( W(t) + momentum.*vW(t) )
W(t+1) = W(t) + vW(t+1)

На самом деле, это имеет огромное значение на практике ...

Arech
источник

5

Добавлено: Стэнфордский курс по нейронным сетям, cs231n , дает еще одну форму шагов:

v = mu * v_prev - learning_rate * gradient(x)   # GD + momentum
v_nesterov = v + mu * (v - v_prev)              # keep going, extrapolate
x += v_nesterov

Здесь vскорость ака шаг ака состояние и muявляется фактором импульса, обычно 0,9 или около того. ( v, xИ learning_rateможет быть очень длинные векторы, с NumPy, код тот же.)

vв первой строке - градиентный спуск с импульсом; v_nesterovэкстраполирует, продолжает идти. Например, с mu = 0,9,

v_prev  v   --> v_nesterov
---------------
 0  10  -->  19
10   0  -->  -9
10  10  -->  10
10  20  -->  29

Следующее описание имеет 3 термина:
один термин - простой градиентный спуск (GD),
1 + 2 - GD + импульс,
1 + 2 + 3 - Нестеров Г.Д.

Нестеров Г.Д. обычно описывают как шаги переменного импульса и шаги градиента : $x_t \to y_t$ $y_t \to x_{t+1}$

$\qquad y_t = x_t + m (x_t - x_{t-1}) \quad$ - импульс, предиктор - градиент
$\qquad x_{t+1} = y_t + h\ g(y_t) \qquad$

где - отрицательный градиент, а - размер шага, или скорость обучения. $g_t \equiv - \nabla f(y_t)$ $h$

Объедините эти два уравнения в одно только в , в точках, в которых оцениваются градиенты, вставив второе уравнение в первое, и переставьте термины: $y_t$

$\qquad y_{t+1} = y_t$
$\qquad \qquad + \ h \ g_t \qquad \qquad \quad$ - градиент - импульс шага - градиент импульса
$\qquad \qquad + \ m \ (y_t - y_{t-1}) \qquad$
$\qquad \qquad + \ m \ h \ (g_t - g_{t-1}) \quad$

Последний член - это разница между БД с простым импульсом и БД с импульсом Нестерова.

Можно использовать отдельные термины импульса, скажем, и : - шаговый импульс - градиент импульса $m$ $m_{grad}$
$\qquad \qquad + \ m \ (y_t - y_{t-1}) \qquad$
$\qquad \qquad + \ m_{grad} \ h \ (g_t - g_{t-1}) \quad$

Тогда дает простой импульс, Nesterov. усиливает шум (градиенты могут быть очень шумными), - фильтр сглаживания IIR. $m_{grad} = 0$ $m_{grad} = m$
$m_{grad} > 0$
$m_{grad} \sim -.1$

Кстати, импульс и размер шага могут изменяться со временем, и , или для каждого компонента (ada * координатное снижение), или для обоих - больше методов, чем в тестовых примерах. $m_t$ $h_t$

График сравнения простого импульса с импульсом Нестерова в простом двумерном тестовом примере :

(x / [c o n d, 1] - 100) + r i p p l e \times s i n (π x)

$(x / [cond, 1] - 100) + ripple \times sin( \pi x )$

Денис
источник

В чем разница между градиентным спуском на основе импульса и ускоренным градиентным спуском Нестерова?

Ответы:

NAG_ball рассуждения

Приложение 1 - Демонстрация рассуждений NAG_ball

Приложение 2 - вещи / термины, которые я придумал (для интуиции)

Приложение 3 - термины, которые я не составил