Я знал, что Residual Network (ResNet) сделал обычную инициализацию популярной. В ResNet используется обычная инициализация He , в то время как первый уровень использует равномерную инициализацию He.
Я просмотрел документ ResNet и документ «Углубление в выпрямители» (документ об инициализации), но я не нашел упоминаний о обычном init против стандартного init.
Также:
Пакетная нормализация позволяет нам использовать гораздо более высокие скорости обучения и быть менее внимательным к инициализации.
В реферате Batch Normalization говорится, что Batch Normalization позволяет нам быть менее внимательными к инициализации.
Сама ResNet все еще заботится о том, когда использовать обычный init или обычный init (вместо того, чтобы просто использовать обычный init).
Так:
- Когда использовать (He или Glorot) нормально распределенную инициализацию поверх равномерной инициализации?
- Каковы нормально-распределенные эффекты инициализации с нормализацией партии?
Примечания в сторону:
- Это рифмуется с использованием обычного init с Batch Normalization, но я не нашел ни одной статьи, подтверждающей этот факт.
- Я знал, что ResNet использует He init вместо Glorot init, потому что он хорошо работает в глубокой сети.
- Я понял о Глороте .
- Мой вопрос о нормальном и унифицированном init.
Пожалуйста, прочитайте гипер-параметры в действии! Часть II - Весовые инициализаторы
источник