При обучении нейронной сети с использованием алгоритма обратного распространения метод градиентного спуска используется для определения обновлений веса. Мой вопрос: вместо того, чтобы использовать метод градиентного спуска, чтобы медленно найти минимальную точку относительно определенного веса, почему бы нам просто не установить производную , и найти значение веса которое минимизирует ошибку?
Кроме того, почему мы уверены, что функция ошибок при обратном распространении будет минимальной? Разве не получается, что функция ошибок - максимум? Существует ли специальное свойство функций сжатия, которое гарантирует, что сеть с любым количеством скрытых узлов с произвольными весами и входными векторами всегда будет давать функцию ошибки, которая имеет некоторые минимумы?
22
Ответы:
Потому что мы не можем. Поверхность оптимизации как функция весов w является нелинейной, и для d S ( w ) не существует решения в замкнутой формеS( ш ) вес .dS( ш )dвес= 0
Градиентный спуск по определению спускается. Если вы достигнете стационарной точки после спуска, это должен быть (локальный) минимум или седловая точка, но не локальный максимум.
источник
Что касается ответа Марка Клезена, я полагаю, что градиентное снижение может остановиться на локальном максимуме в ситуациях, когда вы инициализируете локальный максимум или вы просто оказались там из-за неудачи или неправильной настройки скорости. Локальный максимум будет иметь нулевой градиент, и алгоритм будет думать, что он сходится. Вот почему я часто запускаю несколько итераций из разных начальных точек и отслеживаю значения по пути.
источник
В методах типа Ньютона на каждом шаге решаетсяd( ошибка )dвес= 0
Если кто-то использует метод Крылова для решения гессиана, а другой не использует хороший предварительный обработчик для гессиана, то затраты примерно уравновешиваются - итерации Ньютона занимают гораздо больше времени, но достигают большего прогресса, так что общее время примерно равно такой же или медленнее, чем градиентный спуск. С другой стороны, если у кого-то есть хороший гессианский предварительный кондиционер, то метод Ньютона побеждает.
Тем не менее, методы Ньютона-Крылова в трастовом регионе являются золотым стандартом в современной крупномасштабной оптимизации, и я ожидаю, что их использование увеличится в нейронных сетях в ближайшие годы, так как люди хотят решать все большие и большие проблемы. (а также по мере того, как все больше людей в области численной оптимизации начинают интересоваться машинным обучением)
источник