Насколько мне известно, наиболее близкой вещью к тому, что вы можете искать, является недавняя статья исследователей Google: « Нормализация партии: ускорение обучения в глубокой сети за счет уменьшения внутреннего смещения Covariate» .
Пакетная нормализация
LYL= ф( Wх + б )еW, бИкс
Что делает BN Normalization следующим образом:
- Wх + бИкс^Икс^Wх + б
- Икс^→ γИкс^+ β,
- Y^L= ф( γИкс^+ β)
Таким образом, BN стандартизирует «необработанные» (читай: перед тем, как применить нелинейность) выходы активации, чтобы они имели среднее значение ноль, дисперсию 1, а затем мы применяем выученное аффинное преобразование и, наконец, применяем нелинейность. В некотором смысле мы можем интерпретировать это как позволение нейронной сети изучать соответствующее параметризованное входное распределение для нелинейности.
γ, β
Мотивация аффинного преобразования
βγ
Стандартизация сначала
γ, βфактически они изучили преобразование, в котором они использовали преобразование идентичности в качестве справочного или базового показателя для сравнения. Соавторы Microsoft полагали, что наличие этой ссылки или базового уровня помогло решить проблему. Я не верю, что слишком надуманным, чтобы задаться вопросом, происходит ли что-то подобное здесь с BN и начальным этапом стандартизации.
Приложения BN
Особенно интересный результат заключается в том, что с помощью Batch Normalization команда Google смогла получить отличную начальную сеть для обучения в ImageNet и получить довольно конкурентоспособные результаты. Tanh - насыщающая нелинейность, и было трудно получить доступ к этим типам сетей из-за проблемы насыщения / исчезающих градиентов. Однако, используя Пакетную Нормализацию, можно предположить, что сеть смогла изучить преобразование, которое отображает выходные значения активации в ненасыщающий режим из-за нелинейных нелинейностей.
Заключительные заметки
Они даже ссылаются на тот же факт Янна ЛеКуна, который вы упомянули в качестве мотивации для нормализации партии.