Статья. В чем разница между нормализацией слоев, периодической нормализацией партии (2016 г.) и нормализованной партией RNN (2015 г.)?

Итак, недавно появилась статья о нормализации слоя . Есть также реализация этого на Керасе.

Но я помню, что есть статьи под названием Рекуррентная пакетная нормализация (Cooijmans, 2016) и Пакетная нормализованная рекуррентная нейронная сеть (Laurent, 2015). В чем разница между этими тремя?

Есть раздел «Связанные работы», который я не понимаю:

Пакетная нормализация ранее была распространена на рецидивирующие нейронные сети [Laurent et al., 2015, Amodei et al., 2015, Cooijmans et al., 2016]. Предыдущая работа [Cooijmans et al., 2016] предполагает, что наилучшие показатели нормализации периодических партий достигаются при ведении независимой статистики нормализации для каждого временного шага. Авторы показывают, что инициализация параметра усиления в слое нормализации периодической партии до 0,1 существенно влияет на конечную производительность модели. Наша работа также связана с нормализацией веса [Salimans and Kingma, 2016]. При нормализации веса вместо дисперсии норма L2 поступающих весов используется для нормализации суммированных входов в нейрон, Применение либо нормализации веса, либо нормализации партии с использованием ожидаемой статистики эквивалентно другой параметризации исходной нейронной сети прямой связи. Повторная параметризация в сети ReLU была изучена в патологически нормированной SGD [Neyshabur et al., 2015]. Однако предложенный нами метод нормализации слоев не является перепараметризацией исходной нейронной сети. Таким образом, нормализованная модель слоя обладает инвариантными свойствами, отличными от других методов , которые мы изучим в следующем разделе.

deep-learning rnn normalization batch-normalization rilut
источник

Ответы:

Нормализация уровня ( Ba 2016 ): не использует пакетную статистику. Нормализуйте, используя статистику, собранную из всех единиц в слое текущей выборки. Не работает с ConvNets.
Рекуррентная нормализация партии (BN) ( Cooijmans, 2016 ; также предложена одновременно Qianli Liao & Tomaso Poggio , но протестирована на Рекуррентных ConvNets вместо RNN / LSTM): То же, что нормализация партии. Используйте разные статистические данные нормализации для каждого временного шага. Вам нужно хранить набор среднего и стандартного отклонения для каждого временного шага.
Пакетная нормализованная рекуррентная нейронная сеть ( Laurent, 2015 ): пакетная нормализация применяется только между входным и скрытым состояниями, но не между скрытыми состояниями. то есть нормализация не применяется со временем.
Потоковая нормализация ( Liao et al. 2016 ): она суммирует существующие нормализации и преодолевает большинство проблем, упомянутых выше. Он хорошо работает с ConvNets, периодическим обучением и онлайн-обучением (т. Е. С небольшими мини-пакетами или одним образцом за раз):
$L2$ $L2$ $1$ $y = x*(w/|w|)$ $x$ $w$ $g$ $y = y*g$ $g$ кажется не существенным для производительности (также изучаемые слои могут изучить это в любом случае).
$L2$ $y = (x/|x|)*(w/|w|)$ $x$ $w$

Обратите внимание, что нормализация веса и косинуса широко использовалась (так называемый нормализованный точечный продукт) в 2000-х годах в классе ConvNets под названием HMAX (Riesenhuber 1999) для моделирования биологического зрения. Вы можете найти их интересными.

Ссылка: модель HMAX

Ссылка: ссылка на Симулятор кортикальной сети

Ссылка: Нормализация косинуса: Использование косинусного сходства вместо точечного продукта в нейронных сетях , Ло Чуньцзе, Чжан Цзяньфэн, Ван лей, Ян Цян

NeuralWorks
источник