Вопросы с тегом «sgd»

101
Пакетный градиентный спуск против стохастического градиентного спуска

Предположим, у нас есть некоторый обучающий набор ( х( я ), у( я ))(x(i),y(i))(x_{(i)}, y_{(i)}) для я = 1 , … , мi=1,…,mi = 1, \dots, m . Также предположим, что мы запускаем некоторый тип контролируемого алгоритма обучения на тренировочном наборе. Гипотезы представлены в виде часθ( х( я )) = θ0+...

36
Кто изобрел стохастический градиентный спуск?

Я пытаюсь понять историю градиентного спуска и стохастического градиентного спуска . Градиентный спуск был изобретен в Коши в 1847 году. Общий метод решения проблем симуляций . С. 536–538. Подробнее об этом см. здесь . С тех пор методы градиентного спуска продолжали развиваться, и я не знаком с их...

25
Для выпуклых задач всегда ли градиент в Стохастическом градиентном спуске (SGD) указывает на глобальное экстремальное значение?

Учитывая выпуклую функцию стоимости, используя SGD для оптимизации, мы будем иметь градиент (вектор) в определенной точке в процессе оптимизации. Мой вопрос, учитывая точку на выпуклом, градиент только указывает в направлении, в котором функция увеличивается / уменьшается быстрее всего, или...

18
Как размер партии влияет на конвергенцию SGD и почему?

Я видел аналогичный вывод из многих дискуссий, что с увеличением размера мини-пакета конвергенция SGD становится все труднее / хуже, например, в этой статье и в этом ответе . Также я слышал о людях, использующих такие уловки, как небольшая скорость обучения или размеры партий на ранней стадии, для...

15
Как стохастический градиентный спуск может сэкономить время по сравнению со стандартным градиентным спуском?

Стандартный градиентный спуск будет вычислять градиент для всего набора обучающих данных. for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad Для заранее определенного числа эпох мы сначала вычисляем вектор градиента...

14
Как это может быть пойман в ловушку в седловой точке?

В настоящее время я немного озадачен тем, как мини-пакетный градиентный спуск может быть пойман в ловушку. Решение может быть слишком тривиальным, чтобы я его не понял. Вы получаете новую выборку каждую эпоху, и она вычисляет новую ошибку на основе новой партии, поэтому функция стоимости является...

12
RMSProp и Адам против SGD

Я выполняю эксперименты на валидации EMNIST, используя сети с RMSProp, Adam и SGD. Я достиг 87% точности с SGD (скорость обучения 0,1) и отсева (0,1 отсева), а также регуляризация L2 (1e-05 штраф). При тестировании точно такой же конфигурации с RMSProp и Adam, а также с начальной скоростью обучения...

10
В чем разница между VAE и стохастическим обратным распространением для моделей с глубокой генерацией?

В чем разница между авто-кодированием вариационного байесовского алгоритма и стохастическим обратным распространением для моделей с глубокой генерацией ? Приводит ли вывод в обоих методах к тем же результатам? Я не знаю каких-либо явных сравнений между этими двумя методами, несмотря на то, что обе...