Вопросы с тегом «gradient-descent»

23
Координата против градиентного спуска

Мне было интересно, каковы разные варианты использования для двух алгоритмов, Coordinate Descent и Gradient Descent . Я знаю, что у координатного спуска есть проблемы с негладкими функциями, но он используется в популярных алгоритмах, таких как SVM и LASSO. Однако градиентный спуск, по-моему,...

22
Обратное распространение градиента через пропускаемые соединения ResNet

Мне любопытно, как градиенты распространяются обратно через нейронную сеть с помощью модулей ResNet / пропуска соединений. Я видел пару вопросов о ResNet (например, Нейронная сеть с пропускаемыми соединениями ), но этот вопрос специально задает о обратном распространении градиентов во время...

22
Зачем использовать градиентный спуск с нейронными сетями?

При обучении нейронной сети с использованием алгоритма обратного распространения метод градиентного спуска используется для определения обновлений веса. Мой вопрос: вместо того, чтобы использовать метод градиентного спуска, чтобы медленно найти минимальную точку относительно определенного веса,...

21
От правила персептрона к градиентному спуску: чем отличаются перцептроны с функцией активации сигмовидной кишки от логистической регрессии?

По сути, мой вопрос заключается в том, что в многослойных персептронах персептроны используются с сигмовидной активационной функцией. Так что в правиле обновления у вычисляется какY^Y^\hat{y} Y^= 11 + опыт( - шTИкся)Y^знак равно11+ехр⁡(-весTИкся)\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)}...

21
Возможно ли градиентное спуск для SVM с ядром (если так, почему люди используют квадратичное программирование)?

Почему люди используют методы квадратичного программирования (например, SMO) при работе с SVM с ядром? Что не так с градиентным спуском? Это невозможно использовать с ядрами или просто слишком медленно (и почему?). Здесь немного больше контекста: пытаясь немного лучше понять SVM, я использовал...

20
Когда генетические алгоритмы являются хорошим выбором для оптимизации?

Генетические алгоритмы являются одной из форм метода оптимизации. Часто стохастический градиентный спуск и его производные являются лучшим выбором для оптимизации функций, но генетические алгоритмы все еще иногда используются. Например, антенна космического корабля НАСА ST5 была создана с...

20
В нейронных сетях зачем использовать градиентные методы, а не другие метаэвристики?

Почему в обучении глубоких и неглубоких нейронных сетей обычно используются градиентные методы (например, градиентный спуск, Нестеров, Ньютон-Рафсон), а не другие метаэвристики? Под метаэвристикой я подразумеваю такие методы, как имитация отжига, оптимизация колоний муравьев и т. Д., Которые были...

19
Может ли быть несколько локальных оптимальных решений, когда мы решаем линейную регрессию?

Я прочитал это утверждение на одном старом истинном / ложном экзамене: Мы можем получить несколько локальных оптимальных решений, если решим задачу линейной регрессии путем минимизации суммы квадратов ошибок с использованием градиентного спуска. Решение: Неверно У меня вопрос, какая часть этого...

18
Как размер партии влияет на конвергенцию SGD и почему?

Я видел аналогичный вывод из многих дискуссий, что с увеличением размера мини-пакета конвергенция SGD становится все труднее / хуже, например, в этой статье и в этом ответе . Также я слышал о людях, использующих такие уловки, как небольшая скорость обучения или размеры партий на ранней стадии, для...

17
Почему k-means не дает глобального минимума?

Я читал, что алгоритм k-средних сходится только к локальному минимуму, а не к глобальному минимуму. Почему это? Я могу логически подумать о том, как инициализация может повлиять на окончательную кластеризацию, и есть вероятность неоптимальной кластеризации, но я не нашел ничего, что математически...

16
В чем разница между онлайн и пакетным обучением?

В настоящее время я читаю статью « Эффективное онлайн и пакетное обучение с использованием прямого и обратного разделения » Джона Дючи и Йорама Сингера. Я очень смущен использованием терминов «Онлайн» и «Пакетный режим». Я подумал: «Онлайн» означает, что мы обновляем весовые параметры после...

15
Сумма или среднее градиентов в (мини) пакетном градиенте приличное?

Когда я реализовал мини-пакетный градиент приличный, я просто усреднил градиенты всех примеров в обучающей партии. Тем не менее, я заметил, что сейчас оптимальная скорость обучения намного выше, чем для приличного онлайн градиента. Моя интуиция заключается в том, что это происходит из-за того, что...

15
Как CNN's избегают исчезающей проблемы градиента

Я много читал о сверточных нейронных сетях и удивлялся, как они избегают исчезающей проблемы градиента. Я знаю, что сети глубокого убеждения объединяют одноуровневые автокодеры или другие предварительно обученные мелкие сети и, таким образом, могут избежать этой проблемы, но я не знаю, как этого...

15
Разъяснение о реализации правила перцептрона против градиентного спуска против стохастического градиентного спуска

Я немного поэкспериментировал с различными реализациями Perceptron и хочу убедиться, правильно ли я понимаю «итерации». Оригинальное правило персептрона Розенблатта Насколько я понимаю, в классическом алгоритме персептрона Розенблатта веса обновляются одновременно после каждого примера обучения...

15
Как стохастический градиентный спуск может сэкономить время по сравнению со стандартным градиентным спуском?

Стандартный градиентный спуск будет вычислять градиент для всего набора обучающих данных. for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad Для заранее определенного числа эпох мы сначала вычисляем вектор градиента...

14
Функции стоимости для контекстных бандитов

Я использую vowpal wabbit для решения проблемы контекстуального бандита . Я показываю рекламу пользователям, и у меня есть достаточно информации о контексте, в котором показывается реклама (например, кто такой пользователь, на каком сайте он находится и т. Д.). Похоже, это довольно классическая...

14
Как это может быть пойман в ловушку в седловой точке?

В настоящее время я немного озадачен тем, как мини-пакетный градиентный спуск может быть пойман в ловушку. Решение может быть слишком тривиальным, чтобы я его не понял. Вы получаете новую выборку каждую эпоху, и она вычисляет новую ошибку на основе новой партии, поэтому функция стоимости является...

14
Почему мы не используем непостоянную скорость обучения для градиента, приличного для вещей, отличных от нейронных сетей?

Глубокая учебная литература полна умных трюков с использованием непостоянных скоростей обучения при градиентном спуске. Такие вещи, как экспоненциальный распад, RMSprop, Adagrad и т. Д., Легко реализовать и они доступны в каждом пакете глубокого обучения, но, похоже, их не существует за пределами...