Как может стохастический градиентный спуск избежать проблемы локального минимума?

Я знаю, что случайный градиентный спуск имеет случайное поведение, но я не знаю почему.
Есть ли объяснение этому?

machine-learning random-variable gradient-descent SunshineAtNoon
источник

Как ваш вопрос связан с вашим названием?

Нил Г

Ответы:

Алгоритм стохастического градиента (SG) ведет себя как алгоритм имитации отжига (SA), где скорость обучения SG связана с температурой SA. Случайность или шум, вносимые SG, позволяют вырваться из локальных минимумов, чтобы достичь лучшего минимума. Конечно, это зависит от того, насколько быстро вы уменьшите скорость обучения. Прочтите раздел 4.2 « Стохастического обучения градиентам в нейронных сетях» (pdf) , где это объясняется более подробно.

Клара
источник

Не следует также рассматривать раздел 4.1 хорошо, где вторая теорема для ограниченного случая невыпуклых функций, говоря, что она только сходится (с бесконечными выборками) к некоторой точке с градиентом 0. Это может быть не глобальный минимум, или даже максимум , SGD более интересен по более практическим причинам, таким как распределенное обучение, но не обязательно, что он «избежит» локального минимума.

ноль

При стохастическом градиентном спуске параметры оцениваются для каждого наблюдения, в отличие от всей выборки при регулярном градиентном спуске (периодический градиентный спуск). Это то, что придает ему много случайности. Путь стохастического градиентного спуска блуждает по большему количеству мест и, таким образом, с большей вероятностью «выпрыгнет» из локального минимума и найдет глобальный минимум (Примечание *). Однако стохастический градиентный спуск все еще может застрять в локальном минимуме.

Примечание: обычно поддерживают постоянную скорость обучения, в этом случае стохастический градиентный спуск не сходится; это просто бродит вокруг одной и той же точки. Однако, если скорость обучения уменьшается со временем, скажем, она обратно связана с числом итераций, то стохастический градиентный спуск сходится.

Akavall
источник

Это неправда, что стохастический градиентный спуск на самом деле не сходится, а просто творит чудеса вокруг определенной точки. Это было бы так, если бы скорость обучения оставалась постоянной. Тем не менее, скорости обучения стремятся к нулю, потому что таким образом, когда алгоритм близок к минимуму выпуклой функции, он перестает колебаться и сходится. Ключом доказательства сходимости стохастического градиента являются условия, налагаемые на ряд скоростей обучения. См. Уравнения (6) и (27) оригинальной статьи Роббинса и Монро.

Клара

Как уже упоминалось в предыдущих ответах, стохастический градиентный спуск имеет гораздо более шумную поверхность ошибки, так как каждый образец оценивается итеративно. В то время как вы делаете шаг к глобальному минимуму спуска градиента партии в каждую эпоху (проходите через обучающий набор), отдельные шаги вашего градиента спуска стохастического градиента не всегда должны указывать на глобальный минимум в зависимости от оцениваемой выборки.

Чтобы визуализировать это с помощью двумерного примера, вот несколько рисунков и рисунков из класса машинного обучения Эндрю Нга.

Первый градиентный спуск:

введите описание изображения здесь

Во-вторых, стохастический градиентный спуск:

введите описание изображения здесь

Красный кружок на нижнем рисунке должен иллюстрировать, что стохастический градиентный спуск будет «обновляться» где-то в области вокруг глобального минимума, если вы используете постоянную скорость обучения.

Итак, вот несколько практических советов, если вы используете стохастический градиентный спуск:

1) перемешивать тренировочный набор перед каждой эпохой (или итерацией в «стандартном» варианте)

2) использовать адаптивную скорость обучения, чтобы «отжечь» ближе к глобальному минимуму

источник

Почему вы хотите перетасовать тренировочный набор перед каждой эпохой? Алгоритм SGD выбирает обучающие примеры случайным образом.

Владислав Довгальец

Перестановка - это, в основном, один из способов заставить эти выборочные выборки выбирать случайным образом. В моих реализациях я обычно перетасовываю тренировочный набор перед каждой эпохой, а затем просто forперебираю перетасованный набор

Хм, в Википедии алгоритм SGD описывается как «без замены», однако Ботту описывает его так же, как и вы (Ботту, Леон. «Масштабное машинное обучение со стохастическим градиентным спуском». Материалы COMPSTAT'2010. Physica-Verlag HD, 2010. 177-186.), И я думаю, что здесь я склонен доверять Ботту больше, чем этой записи в Википедии.

@xeon Проверьте эту статью , в которой утверждается, что выборка без замены лучше. Я понимаю, что без замены, как правило, эмпирически лучше, но теоретический анализ не был доступен до недавнего времени.

Дугал

@xeon Я только что посмотрел свои PDF-слайды из курса Эндрю Нга, и, похоже, он описал это как в Википедии (вариант «без замены»), а не как Ботту. Я загрузил скриншот здесь