При обновлении весов нейронной сети с использованием алгоритма обратного распространения с импульсом, должна ли скорость обучения применяться и к члену импульса?
Большая часть информации, которую я мог найти об использовании импульса, имеет уравнения, выглядящие примерно так:
где - скорость обучения, а μ - член импульса.
если член больше, чем член α, то на следующей итерации Δ W из предыдущей итерации будет иметь большее влияние на вес, чем текущая.
Это цель импульса? или уравнение должно выглядеть больше так?
то есть. масштабировать все по скорости обучения?
источник