Почему выпрямленные линейные единицы считаются нелинейными?

25

Почему функции активации выпрямленных линейных единиц (ReLU) считаются нелинейными?

f(x)=max(0,x)

Они являются линейными, когда входной сигнал положительный, и, насколько я понимаю, для разблокировки репрезентативной силы глубоких сетей необходимы нелинейные активации, в противном случае вся сеть может быть представлена ​​одним слоем.

Aly
источник
Ранее задавался аналогичный вопрос: stats.stackexchange.com/questions/275358/… хотя, вероятно, это не дубликат
Аксакал

Ответы:

33

RELU - это нелинейности. Чтобы помочь вашей интуиции, рассмотрим очень простую сеть с 1 единицей ввода x , 2 скрытыми единицами yi и 1 единицей вывода z . С помощью этой простой сети мы могли бы реализовать функцию абсолютного значения,

z=max(0,x)+max(0,x),

или что-то похожее на обычно используемую сигмовидную функцию,

z=max(0,x+1)max(0,x1).

Объединяя их в более крупные сети / используя больше скрытых единиц, мы можем аппроксимировать произвольные функции.

Сетевая функция RELU

Лукас
источник
Будут ли эти типы ReLus, изготовленные вручную, априори и жестко закодированы как слои? Если да, то как вы узнаете, что вашей сети требуется один из этих специально созданных ReLus, в частности?
Моника Хеднек
4
@MonicaHeddneck Вы можете указать свои собственные нелинейности, да. То, что делает одну функцию активации лучше другой, является постоянной темой исследования. Например, мы использовали сигмоиды , но затем из-за исчезающей проблемы градиента ReLU стали более популярными. Так что вам решать использовать разные функции активации нелинейности. σ(x)=11+ex
Тарин Зияи
Как бы вы приблизили с ReLU вне образца? ex
Аксакал
1
@Lucas, так что в принципе, если объединить (+)> 1 ReLU, мы можем аппроксимировать любую функцию, но если мы просто reLu(reLu(....))будем линейными всегда? Кроме того, здесь вы переходите xк тому x+1, что можно подумать, Z=Wx+bгде W & b меняется, чтобы дать различные варианты такого рода x& x+1?
ана