Как работает импульс импульса для алгоритма обратного распространения?

9

При обновлении весов нейронной сети с использованием алгоритма обратного распространения с импульсом, должна ли скорость обучения применяться и к члену импульса?

Большая часть информации, которую я мог найти об использовании импульса, имеет уравнения, выглядящие примерно так:

Wя'знак равноWя-αΔWя+μΔWя-1

где - скорость обучения, а μ - член импульса.αμ

если член больше, чем член α, то на следующей итерации Δ WμαΔW из предыдущей итерации будет иметь большее влияние на вес, чем текущая.

Это цель импульса? или уравнение должно выглядеть больше так?

Wi=Wiα(ΔWi+μΔWi1)

то есть. масштабировать все по скорости обучения?

guskenny83
источник

Ответы:

10

Использование обратного распространения с импульсом в сети с различных весов W к я -й коррекции для веса W к задаютсяnWkiWk

гдеEΔWК(я)знак равно-αЕWК+μΔWК(я-1) - изменение потерь относительноWk.ЕWКWК

Введение скорости импульса позволяет ослаблять колебания при градиентном спуске. Геометрическая идея, лежащая в основе этой идеи, вероятно, может быть лучше всего понята с точки зрения анализа собственного пространства в линейном случае. Если соотношение между самым низким и самым большим собственным значением велико, то выполнение градиентного спуска происходит медленно, даже если скорость обучения велика из-за кондиционирования матрицы. Импульс вводит некоторую балансировку в обновлении между собственными векторами, связанными с более низкими и большими собственными значениями.

Для более подробной информации я обращаюсь к

http://page.mi.fu-berlin.de/rojas/neural/chapter/K8.pdf

Nico
источник
Что означает нижняя часть тела?
Дэвид Ричерби
в порядке, так что термин импульса вводится при вычислении термин, а не добавлен при расчете «новое» значение веса? Просто чтобы уточнить, должен ли ваш член µ W k ( i - 1 ) быть µ Δ W k ( i - 1 ) ? или это пропорция фактического веса, а не изменение курса? спасибо за ваш ответ и за ссылку на статью. ΔWКμWК(я-1)μΔWК(я-1)
guskenny83
спасибо за указание на ошибку. Это, конечно, ΔWК(я-1)
Нико
Что вы подразумеваете под «изменением потерь»? Это что-то вроде «вариации в ошибке»?
starbeamrainbowlabs
Это означает только производную от ошибки по весам.
Нико