Общий ответ на поведение объединения общих функций активации заключается в том, что должны применяться законы исчисления, в частности, дифференциальное исчисление, результаты должны быть получены в ходе эксперимента, чтобы быть уверенным в качестве собранной функции, и дополнительная сложность, вероятно, увеличить время вычислений. Исключением из такого увеличения будет случай, когда вычислительная нагрузка комбинации мала по сравнению с преимуществами конвергенции, которые обеспечивает комбинация.
Это похоже на Swish, имя, данное функции активации, определенной как
е( х ) = хS ( βИкс ),
е( )Sβ
Похоже, он не разработан Google. Первоначально анонимно представленный документ (для двойного слепого обзора в качестве документа ICLR 2018) « Поиск функций активации» был написан Праджитом Рамачандраном, Барретом Зофом и Куоком В. Ле около 2017 года. Это их требование.
Наши эксперименты показывают, что лучшая обнаруженная функция активации, ... Swish, ... имеет тенденцию работать лучше, чем ReLU, на более глубоких моделях в ряде сложных наборов данных.
Любое изменение в функции активации для любого отдельного слоя, за исключением астрономически редкого случая, повлияет на точность, надежность и вычислительную эффективность. Существенно ли изменение нельзя обобщить. Вот почему новые идеи проверяются на основе наборов данных, традиционно используемых для оценки полезности 1 .
Объединение функций активации для формирования новых функций активации не является распространенным явлением. Например, AlexNet не объединяет их. 2 . Однако очень часто используются разные функции активации на разных уровнях единой эффективной сети.
Сноски
[1] Являются ли эти традиции предвзятым, другой вопрос. Те, кто придерживается теории анализа прецедентов, впервые предложенной шведским ученым-программистом Иваром Хьялмаром Якобсоном или идеями 6 Sigma, скажут, что эти тесты - это модульные тесты, а не функциональные тесты против реальных вариантов использования, и у них есть смысл.
[2] Чтобы исправить любые неправильные представления, которые могут возникнуть из другого ответа, AlexNet, имя, данное подходу, изложенному в Классификации ImageNet с глубокими сверточными нейронными сетями (2012) Алексом Крижевским, Ильей Суцкевером и Джеффри Э. Хинтоном из Университета Торонто, не предполагает объединения функций активации для формирования новых. Они пишут это.
Выход последнего полностью подключенного слоя подается на 1000-полосный softmax, который создает распределение по 1000 меткам классов.
...
Нелинейность ReLU применяется к выходу каждого сверточного и полностью связного слоя. Внутренние слои - чистый ReLU, а выходной - Softmax.
Существуют также ядра свертки и объединяющие слои в серии слоев подхода AlexNet, которые они используют, и дизайн стал широко использоваться с момента их победы в конкурсе ImageNet в 2012 году. Другие подходы выиграли последующие конкурсы.