Почему функции активации выпрямленных линейных единиц (ReLU) считаются нелинейными?
Они являются линейными, когда входной сигнал положительный, и, насколько я понимаю, для разблокировки репрезентативной силы глубоких сетей необходимы нелинейные активации, в противном случае вся сеть может быть представлена одним слоем.
Ответы:
RELU - это нелинейности. Чтобы помочь вашей интуиции, рассмотрим очень простую сеть с 1 единицей вводаИкс , 2 скрытыми единицами Yя и 1 единицей вывода Z . С помощью этой простой сети мы могли бы реализовать функцию абсолютного значения,
или что-то похожее на обычно используемую сигмовидную функцию,
Объединяя их в более крупные сети / используя больше скрытых единиц, мы можем аппроксимировать произвольные функции.
источник
reLu(reLu(....))
будем линейными всегда? Кроме того, здесь вы переходитеx
к томуx+1
, что можно подумать,Z=Wx+b
где W & b меняется, чтобы дать различные варианты такого родаx
&x+1
?