Почему норма партии имеет обучаемый масштаб и сдвиг?

13

Насколько я понимаю, пакетная норма нормализует все входные объекты слоя до единичного нормального распределения, N(μзнак равно0,σзнак равно1) . Среднее значение и дисперсия оцениваются путем измерения их значений для текущей мини-партии.μ,σ2

После нормализации входы масштабируются и сдвигаются на скалярные значения:

Икс^я'знак равноγИкс^я+β

(Поправьте меня, если я здесь не прав - это то, где я начинаю немного сомневаться.)

γ и являются скалярными значениями, и для каждого слоя с нормированной партией существует пара каждого из них. Их изучают вместе с весами, используя backprop и SGD.β

Мой вопрос заключается в том, не являются ли эти параметры избыточными, потому что входные данные могут быть масштабированы и смещены любым образом в соответствии с весами в самом слое. Другими словами, если

Yзнак равноWИкс^'+б

а также

Икс^'знак равноγИкс^+β

тогда

Yзнак равноW'Икс^+б'

где и .W'знак равноWγб'знак равноWβ+б

Так какой смысл добавлять их в сеть, уже способную изучать масштаб и сдвиг? Или я совершенно неправильно понимаю вещи?

Timmmm
источник

Ответы:

13

В книге глубокого обучения, раздел 8.7.1, есть отличный ответ :

Нормализация среднего и стандартного отклонения единицы может уменьшить выразительную силу нейронной сети, содержащей эту единицу. Для поддержания выразительной мощности сети обычно заменяют партию активаций скрытых единиц H на γH + β, а не просто на нормализованную H. Переменные γ и β являются изученными параметрами, которые позволяют новой переменной иметь любое среднее значение и среднеквадратичное отклонение. На первый взгляд, это может показаться бесполезным - почему мы установили среднее значение на 0, а затем ввели параметр, который позволяет вернуть его к любому произвольному значению β?

Ответ заключается в том, что новая параметризация может представлять то же семейство функций ввода, что и старая параметризация, но новая параметризация имеет другую динамику обучения. В старой параметризации среднее значение H определялось сложным взаимодействием между параметрами в слоях ниже H. В новой параметризации среднее значение γH + β определяется исключительно β. Новая параметризация намного легче учиться с градиентным спуском.

Timmmm
источник