Что происходит, когда я смешиваю функции активации?

10

Существует несколько функций активации, таких как ReLU, сигмоид или TANH . Что происходит, когда я смешиваю функции активации?

Недавно я обнаружил, что Google разработал функцию активации Swish (x * sigmoid). Изменяя функцию активации, может ли она повысить точность при небольших проблемах нейронной сети, таких как проблема XOR?

JSChang
источник

Ответы:

2

Общий ответ на поведение объединения общих функций активации заключается в том, что должны применяться законы исчисления, в частности, дифференциальное исчисление, результаты должны быть получены в ходе эксперимента, чтобы быть уверенным в качестве собранной функции, и дополнительная сложность, вероятно, увеличить время вычислений. Исключением из такого увеличения будет случай, когда вычислительная нагрузка комбинации мала по сравнению с преимуществами конвергенции, которые обеспечивает комбинация.

Это похоже на Swish, имя, данное функции активации, определенной как

е(Икс)знак равноИксS(βИкс),

е()Sβ

Похоже, он не разработан Google. Первоначально анонимно представленный документ (для двойного слепого обзора в качестве документа ICLR 2018) « Поиск функций активации» был написан Праджитом Рамачандраном, Барретом Зофом и Куоком В. Ле около 2017 года. Это их требование.

Наши эксперименты показывают, что лучшая обнаруженная функция активации, ... Swish, ... имеет тенденцию работать лучше, чем ReLU, на более глубоких моделях в ряде сложных наборов данных.

Любое изменение в функции активации для любого отдельного слоя, за исключением астрономически редкого случая, повлияет на точность, надежность и вычислительную эффективность. Существенно ли изменение нельзя обобщить. Вот почему новые идеи проверяются на основе наборов данных, традиционно используемых для оценки полезности 1 .

Объединение функций активации для формирования новых функций активации не является распространенным явлением. Например, AlexNet не объединяет их. 2 . Однако очень часто используются разные функции активации на разных уровнях единой эффективной сети.


Сноски

[1] Являются ли эти традиции предвзятым, другой вопрос. Те, кто придерживается теории анализа прецедентов, впервые предложенной шведским ученым-программистом Иваром Хьялмаром Якобсоном или идеями 6 Sigma, скажут, что эти тесты - это модульные тесты, а не функциональные тесты против реальных вариантов использования, и у них есть смысл.

[2] Чтобы исправить любые неправильные представления, которые могут возникнуть из другого ответа, AlexNet, имя, данное подходу, изложенному в Классификации ImageNet с глубокими сверточными нейронными сетями (2012) Алексом Крижевским, Ильей Суцкевером и Джеффри Э. Хинтоном из Университета Торонто, не предполагает объединения функций активации для формирования новых. Они пишут это.

Выход последнего полностью подключенного слоя подается на 1000-полосный softmax, который создает распределение по 1000 меткам классов.

...

Нелинейность ReLU применяется к выходу каждого сверточного и полностью связного слоя. Внутренние слои - чистый ReLU, а выходной - Softmax.

Существуют также ядра свертки и объединяющие слои в серии слоев подхода AlexNet, которые они используют, и дизайн стал широко использоваться с момента их победы в конкурсе ImageNet в 2012 году. Другие подходы выиграли последующие конкурсы.

Дуглас Дасеко
источник