Я много читал о сверточных нейронных сетях и удивлялся, как они избегают исчезающей проблемы градиента. Я знаю, что сети глубокого убеждения объединяют одноуровневые автокодеры или другие предварительно обученные мелкие сети и, таким образом, могут избежать этой проблемы, но я не знаю, как этого избежать в CNN.
Согласно Википедии :
«Несмотря на вышеупомянутую« проблему исчезающего градиента », превосходная вычислительная мощность графических процессоров делает возможным прямое обратное распространение для глубоких нейронных сетей с прямой связью и многими уровнями».
Я не понимаю, почему обработка на GPU устранит эту проблему?
GPU's are fast correlated with vanishing gradients
, я могу понять быструю логику с большой пропускной способностью памяти для обработки нескольких умножений матриц! но не могли бы вы объяснить, что это имеет отношение к производным? Исчезающий градиент вопрос , кажется, делать больше с инициализацией веса , не так ли!Ответы:
Исчезающая проблема градиента требует от нас использования малых скоростей обучения с градиентным спуском, которые затем требуют много маленьких шагов, чтобы сходиться. Это проблема, если у вас медленный компьютер, который занимает много времени для каждого шага. Если у вас быстрый графический процессор, который может выполнять гораздо больше шагов за день, это не проблема.
Есть несколько способов решить проблему исчезающего градиента. Я предполагаю, что наибольший эффект для CNN пришел от перехода от сигмоидальных нелинейных единиц к выпрямленным линейным единицам. Если вы рассматриваете простую нейронную сеть, ошибка зависит от веса w i j только через y j , гдеE wij yj
его градиент
Если - функция логистической сигмоиды, f ′ будет близко к нулю для больших входов, а также для небольших входов. Если f является выпрямленной линейной единицей,f f′ f
производная равна нулю только для отрицательных входов и 1 для положительных входов. Другим важным вкладом является правильная инициализация весов. Этот документ выглядит как хороший источник для понимания проблем более подробно (хотя я еще не читал его):
http://jmlr.org/proceedings/papers/v9/glorot10a/glorot10a.pdf
источник