Сочетание ReLU, гиперпараметризованного варианта 1 с утечкой и варианта с динамической параметризацией во время обучения смешивает две разные вещи:
- Сравнение между ReLU и вариантом с утечкой тесно связано с тем, существует ли необходимость в конкретном случае ML избежать насыщения. Насыщенность - это потеря сигнала либо с нулевым градиентом 2, либо преобладание хаотического шума, возникающего в результате цифрового округление 3 .
- Сравнение между тренировочно-динамической активацией ( в литературе называется параметрической ) и тренировочно-статической активацией должно основываться на том, имеют ли нелинейные или негладкие характеристики активации какое-либо значение, связанное со скоростью сходимости 4 .
Причина, по которой ReLU никогда не является параметрической, заключается в том, что его создание будет избыточным. В отрицательной области это постоянный ноль. В неотрицательной области его производная постоянна. Поскольку входной вектор активации уже ослаблен с помощью произведения векторной матрицы (где матрица, куб или гиперкуб содержит параметры ослабления), нет никакой полезной цели в добавлении параметра для изменения постоянной производной для неотрицательной области ,
Когда в активации есть кривизна, больше не верно, что все коэффициенты активации являются избыточными в качестве параметров. Их значения могут значительно изменить процесс обучения и, следовательно, скорость и надежность конвергенции.
Для существенно глубоких сетей возникает избыточность, и в литературе есть доказательства этого как в теории, так и на практике.
- В алгебраических терминах несоответствие между ReLU и параметрически динамическими активациями, полученными из него, приближается к нулю, когда глубина (в количестве слоев) приближается к бесконечности.
- В описательных терминах ReLU может точно аппроксимировать функции с кривизной 5, если для этого имеется достаточное количество слоев.
Вот почему разнообразие ELU, которое выгодно для предотвращения проблем насыщения, упомянутых выше для более мелких сетей, не используется для более глубоких сетей.
Поэтому нужно решить две вещи.
- Полезность параметрической активации часто основана на экспериментах с несколькими выборками из статистической популяции. Но нет необходимости экспериментировать с ним, если глубина слоя велика.
- То, имеет ли утечка вариант, имеет большое значение для числовых диапазонов, встречающихся при обратном распространении. Если градиент становится исчезающе малым во время обратного распространения в любой точке во время тренировки, постоянная часть кривой активации может быть проблематичной. В таком случае одна из плавных функций или негерметичный RelU с двумя ненулевыми склонами может обеспечить адекватное решение.
Таким образом, выбор никогда не является выбором удобства.
Сноски
[1] Гиперпараметры - это параметры, которые влияют на сигнализацию через уровень, которые не являются частью ослабления входов для этого уровня. Веса затухания являются параметрами. Любая другая параметризация находится во множестве гиперпараметров. Это может включать в себя скорость обучения, подавление высоких частот при обратном распространении и множество других элементов управления обучением, которые установлены для всего слоя, если не для всей сети.
[2] Если градиент равен нулю, то не может быть разумной регулировки параметров, поскольку направление регулировки неизвестно, а его величина должна быть равна нулю. Обучение останавливается.
[3] Если хаотический шум, который может возникнуть, когда ЦП округляет чрезвычайно малые значения до ближайшего цифрового представления, доминирует над сигналом коррекции, который предназначен для распространения обратно к слоям, тогда коррекция становится бессмысленной, и обучение прекращается.
[4] Скорость сходимости - это мера скорости (относительно микросекунд или относительно индекса итерации алгоритма), в которой результат обучения (поведение системы) приближается к тому, что считается достаточно хорошим. Обычно это определенная близость к некоторым формальным критериям приемлемости для конвергенции (обучения).
[5] Функции с кривизной - это функции, которые не визуализируются как прямые или плоские. Парабола имеет кривизну. Прямой линии нет. Поверхность яйца имеет кривизну. Идеальной плоской плоскости нет. Математически, если какой-либо из элементов гессиана функции не равен нулю, функция имеет кривизну.