Я читал статью Классификация ImageNet с глубокими сверточными нейронными сетями, и в разделе 3 они объясняли архитектуру своей сверточной нейронной сети и объясняли, как они предпочитают использовать:
ненасыщенная нелинейность
потому что это было быстрее тренироваться. В этой статье они, по-видимому, ссылаются на насыщающие нелинейности как на более традиционные функции, используемые в CNN, сигмоидальной и гиперболической касательной функциях (то есть и как насыщающий).
Почему они называют эти функции «насыщающими» или «ненасыщенными»? В каком смысле эти функции являются «насыщающими» или «ненасыщенными»? Что означают эти термины в контексте сверточных нейронных сетей? Используются ли они в других областях машинного обучения (и статистики)?
Ответы:
Интуиция
Насыщающая функция активации сжимает вход.
Определения
Эти определения не являются специфическими для сверточных нейронных сетей.
Примеры
Функция активации выпрямленной линейной единицы (ReLU), которая определяется как является насыщающей, потому что :f(x)=max(0,x) limz→+∞f(z)=+∞
Функция активации сигмовидной кишки, которая определяется как , насыщает, потому что она сдавливает действительные числа в диапазоне между :f(x)=11+e−x [0,1]
Функция активации tanh (гиперболический тангенс) насыщает, поскольку она сдавливает действительные числа в диапазоне от :[−1,1]
(цифры из CS231n , лицензия MIT)
источник
Наиболее распространенными функциями активации являются LOG и TanH. Эти функции имеют компактный диапазон, что означает, что они сжимают нейронный отклик в ограниченное подмножество действительных чисел. LOG сжимает входы до выходов между 0 и 1, TAN H между -1 и 1. Эти функции отображают ограничивающее поведение на границах.
На границе градиент выхода относительно входа ∂yj / ∂xj очень мал. Таким образом, градиент маленький, следовательно, небольшие шаги к конвергенции, следовательно, больше времени, чтобы сходиться.
источник