Пакетная нормализация и ReLU являются решениями проблемы исчезающего градиента. Если мы используем пакетную нормализацию, должны ли мы тогда использовать сигмоиды? Или есть функции ReLU, которые делают их полезными даже при использовании batchnorm?
Я предполагаю, что нормализация, выполненная в batchnorm, отправит ноль активаций отрицательно. Означает ли это, что batchnorm решает проблему «мертвого ReLU»?
Но непрерывный характер тан и логистики остаются привлекательными. Если я использую batchnorm, будет ли tanh работать лучше, чем ReLU?
Я уверен, что ответ зависит . Итак, что сработало в вашем опыте, и каковы основные характеристики вашего приложения?
deep-learning
batch-normalization
generic_user
источник
источник
Ответы:
Видите, основная концепция нормализации партии такова (выдержка из статьи Medium) -
Прочитайте статью здесь.
источник
Сумасшедший ответил на ваш вопрос, касающийся нормализации партии, и позвольте мне ответить на вашу вторую часть: как непрерывные функции могут показаться привлекательными, но relu лучше, чем все они, и это утверждение не с моей стороны, MR. Хинтон процитировал это: «Мы были тупыми людьми, которые использовали сигмоид в качестве функции активации, и потребовалось 30 лет, чтобы это осознание произошло, что, не понимая его формы, он никогда не позволит вашему нейрону перейти в состояние обучения, он всегда насыщает, так как он является производным и он назвал себя и всех остальных ошеломленных людей ". Так что выбирайте функцию активации просто потому, что она непрерывна и не смотрит, как она повлияет на ваш нейрон"
Примечание: если вы изучаете нейронные сети, я бы посоветовал вам рассматривать нейронные сети как большие и глубокие составные функции, чтобы понять, что работает и почему это работает, вам нужно понять, как нейронная сеть создает множество данных в некотором более высоком измерении, представляющем «те данные, в которых качество коллектора зависит от вашего выбора функций и того, как функция преобразует выходные данные других функций, когда они передаются ей в качестве входных данных.
источник