Почему выпрямленные линейные единицы считаются нелинейными?

Почему функции активации выпрямленных линейных единиц (ReLU) считаются нелинейными?

f (x) = max (0, x)

$f(x) = \max(0,x)$

Они являются линейными, когда входной сигнал положительный, и, насколько я понимаю, для разблокировки репрезентативной силы глубоких сетей необходимы нелинейные активации, в противном случае вся сеть может быть представлена одним слоем.

neural-networks deep-learning Aly
источник

Ранее задавался аналогичный вопрос: stats.stackexchange.com/questions/275358/… хотя, вероятно, это не дубликат

Аксакал

RELU - это нелинейности. Чтобы помочь вашей интуиции, рассмотрим очень простую сеть с 1 единицей ввода $x$ , 2 скрытыми единицами $y_i$ и 1 единицей вывода $z$ . С помощью этой простой сети мы могли бы реализовать функцию абсолютного значения,

z = max (0, x) + max (0, - x),

$z = \max(0, x) + \max(0, -x),$

или что-то похожее на обычно используемую сигмовидную функцию,

z = max (0, x + 1) - max (0, x - 1) .

$z = \max(0, x + 1) - \max(0, x - 1).$

Объединяя их в более крупные сети / используя больше скрытых единиц, мы можем аппроксимировать произвольные функции.

$\hskip2in$ Сетевая функция RELU

Лукас
источник

Будут ли эти типы ReLus, изготовленные вручную, априори и жестко закодированы как слои? Если да, то как вы узнаете, что вашей сети требуется один из этих специально созданных ReLus, в частности?

Моника Хеднек

@MonicaHeddneck Вы можете указать свои собственные нелинейности, да. То, что делает одну функцию активации лучше другой, является постоянной темой исследования. Например, мы использовали сигмоиды , но затем из-за исчезающей проблемы градиента ReLU стали более популярными. Так что вам решать использовать разные функции активации нелинейности.

σ (x) = \frac{1}{1 + e^{- x}}

$\sigma(x) = \frac{1}{1 + e^{-x}}$

Тарин Зияи

Как бы вы приблизили с ReLU вне образца?

e^{x}

$e^x$

Аксакал

@Lucas, так что в принципе, если объединить (+)> 1 ReLU, мы можем аппроксимировать любую функцию, но если мы просто reLu(reLu(....))будем линейными всегда? Кроме того, здесь вы переходите xк тому x+1, что можно подумать, Z=Wx+bгде W & b меняется, чтобы дать различные варианты такого рода x& x+1?

ана

Почему выпрямленные линейные единицы считаются нелинейными?

Ответы: