Что заставляет модель требовать низкой скорости обучения?

8

Я размышлял об этом некоторое время, не развивая интуицию по математике, стоящей за причиной этого.

Итак, что заставляет модель нуждаться в низкой скорости обучения?

JohnAllen
источник
Мне тоже было интересно об этом, и мне любопытно, почему RNN имеют меньшую скорость обучения, чем CNN. Из того, что я знаю, сложность модели (глубина) и / или огромные наборы данных требуют более точного гиперпараметра для lr.
Джастин

Ответы:

4

Градиентный спуск - это метод, позволяющий найти оптимальный параметр гипотезы или минимизировать функцию стоимости.

формула где альфа скорость обучения

Если скорость обучения высока, то она может превышать минимум и может не минимизировать функцию стоимости. введите описание изображения здесь

следовательно, привести к более высокой потере.

введите описание изображения здесь

Поскольку градиентный спуск может найти только локальный минимум, более низкая скорость обучения может привести к снижению производительности. Для этого лучше начать со случайного значения гиперпараметра, который может увеличить время обучения модели, но существуют продвинутые методы, такие как адаптивный градиентный спуск, который может управлять временем обучения.

Существует множество оптимизаторов для одной и той же задачи, но оптимизатор не идеален. Это зависит от некоторых факторов

  1. размер обучающих данных: с увеличением размера обучающих данных время обучения для модели увеличивается. Если вы хотите сократить время обучения, вы можете выбрать более высокую скорость обучения, но это может привести к снижению производительности.
  2. Оптимизатор (градиентный спуск) будет замедляться всякий раз, когда градиент мал, тогда лучше учиться с более высокой скоростью обучения.

PS. Всегда лучше идти с разными кругами градиентного спуска

POSI2
источник
4
Это хорошее начало, поскольку оно показывает разницу между низкой и высокой скоростью обучения в целом. Вам также нужно объяснить, почему хорошая скорость обучения варьируется в зависимости от задачи - а ОП конкретно спрашивал, почему некоторые проблемы требуют более низкой скорости обучения, чем другие
Нил Слейтер
1
Неплохо подмечено. Я отредактировал это. Поскольку здесь нет конкретной проблемы, я упомяну общую проблему.
Posi2
1
Я все еще думаю, что это не отвечает на вопрос. ОП не спрашивает об оптимизаторе или данных, он спрашивает о модели. Как модель (ее архитектура, количество параметров и т. Д.) Влияет на скорость обучения? Я думаю, что это актуальный вопрос, на который вы не отвечаете. Все остальное совершенно не имеет отношения к вопросу и будет только смущать читателей, которые не могут различить эти понятия.
nbro
Спасибо за ответ. Независимо от архитектуры модели, поскольку число параметров, размер данных и диапазон данных (решение использует нормализованные данные) - это высокий результат, увеличивающий время обучения, поэтому в соответствии с ним мы должны изменить скорость обучения. Это относится к такой модели, как линейная регрессия, логистическая регрессия, SVM и т. Д., Поскольку они используют GD для оптимизации. Любой ответ всегда приветствуется :)
Posi2
Любое доказательство, которое оценивает вашу претензию "независимо от архитектуры модели"? Этот ответ все еще не отвечает на вопрос ОП. Вы отвечаете на вопрос «как меняется скорость обучения в целом, в зависимости от настроек машинного обучения» (и ваш ответ, конечно, не является исчерпывающим, поскольку в нем не упоминается «как скорость обучения изменяется в зависимости от модели»). ", т.е. актуальный вопрос).
nbro