Вопросы с тегом «gradient-descent»

Градиентный спуск - это алгоритм итеративной оптимизации первого порядка. Чтобы найти локальный минимум функции с использованием градиентного спуска, необходимо выполнить шаги, пропорциональные отрицательному значению градиента (или приблизительного градиента) функции в текущей точке. Для стохастического градиентного спуска есть также тег [sgd].

132
Почему метод Ньютона не широко используется в машинном обучении?

Это то, что беспокоило меня какое-то время, и я не смог найти удовлетворительных ответов в Интернете, так что вот так: После рассмотрения ряда лекций по выпуклой оптимизации метод Ньютона, по-видимому, является гораздо более совершенным алгоритмом, чем градиентный спуск, для поиска глобально...

101
Пакетный градиентный спуск против стохастического градиентного спуска

Предположим, у нас есть некоторый обучающий набор ( х( я ), у( я ))(x(i),y(i))(x_{(i)}, y_{(i)}) для я = 1 , … , мi=1,…,mi = 1, \dots, m . Также предположим, что мы запускаем некоторый тип контролируемого алгоритма обучения на тренировочном наборе. Гипотезы представлены в виде часθ( х( я )) = θ0+...

74
Зачем использовать градиентный спуск для линейной регрессии, когда доступно математическое решение замкнутой формы?

Я беру онлайн курсы машинного обучения и узнал о градиентном спуске для расчета оптимальных значений в гипотезе. h(x) = B0 + B1X почему нам нужно использовать градиентный спуск, если мы можем легко найти значения по формуле ниже? Это выглядит прямо и легко. но GD нужно несколько итераций, чтобы...

72
Решение для параметров регрессии в закрытом виде против градиентного спуска

В курсе машинного обучения Эндрю Нг он знакомит с линейной регрессией и логистической регрессией и показывает, как подобрать параметры модели с использованием градиентного спуска и метода Ньютона. Я знаю, что градиентный спуск может быть полезен в некоторых приложениях машинного обучения (например,...

69
Почему исследователи нейронных сетей заботятся о эпохах?

Эпоха в стохастическом градиентном спуске определяется как один проход данных. Для каждой мини-партии SGD отбирается Кkk выборок, вычисляется градиент и обновляются параметры. В настройках эпохи образцы оформляются без замены. Но это кажется ненужным. Почему бы не нарисовать каждый мини-пакет SGD...

59
Оптимизация, когда функция стоимости медленна для оценки

Градиентный спуск и многие другие методы полезны для нахождения локальных минимумов в функциях стоимости. Они могут быть эффективными, когда функцию стоимости можно быстро оценить в каждой точке, численно или аналитически. У меня есть то, что мне кажется необычной ситуацией. Каждая оценка моей...

53
Адам оптимизатор с экспоненциальным затуханием

В большинстве кодов Tensorflow, которые я видел, используется Adam Optimizer с постоянной скоростью обучения 1e-4(т.е. 0,0001). Код обычно выглядит следующим образом: ...build the model... # Add the optimizer train_op = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy) # Add the ops to...

49
Насколько большим должен быть размер партии для стохастического градиентного спуска?

Я понимаю, что стохастический градиентный спуск может быть использован для оптимизации нейронной сети с использованием обратного распространения путем обновления каждой итерации различным образцом обучающего набора данных. Насколько большим должен быть размер...

48
В чем разница между градиентным спуском на основе импульса и ускоренным градиентным спуском Нестерова?

Таким образом, градиентный спуск на основе импульса работает следующим образом: v=self.momentum∗m−lr∗gv=self.momentum∗m−lr∗gv=self.momentum*m-lr*g где - это предыдущее обновление веса, а - текущий градиент относительно параметров , - скорость обучения, а - постоянная...

45
Как работает метод стохастического градиентного спуска Адама?

Я знаком с основными алгоритмами градиентного спуска для обучения нейронных сетей. Я прочитал статью с предложением Адама: АДАМ: МЕТОД СТОХАСТИЧЕСКОЙ ОПТИМИЗАЦИИ . Хотя у меня определенно есть некоторые идеи (по крайней мере), статья кажется мне слишком высокой в ​​целом. Например, функция...

45
Разница между GradientDescentOptimizer и AdamOptimizer (TensorFlow)?

Я написал простой MLP в TensorFlow, который моделирует XOR-Gate . Таким образом, для: input_data = [[0., 0.], [0., 1.], [1., 0.], [1., 1.]] он должен произвести следующее: output_data = [[0.], [1.], [1.], [0.]] Сеть имеет входной слой, скрытый слой и выходной слой с 2, 5 и 1 нейроном каждый. В...

42
Нейронные сети: импульс изменения веса и снижение веса

Momentum используется для уменьшения колебаний веса в последовательных итерациях:αα\alpha Е(ш)шηΔ ωя( t + 1 ) = - η∂Е∂веся+ α Δ ωя( т ) ,Δωя(T+1)знак равно-η∂Е∂веся+αΔωя(T),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t), где - функция ошибки, - вектор весов,...

40
Как прямолинейная функция активации решает проблему исчезающего градиента в нейронных сетях?

Я нашел выпрямленную линейную единицу (ReLU), восхваляемую в нескольких местах как решение проблемы исчезающего градиента для нейронных сетей. То есть, в качестве функции активации используется max (0, x). Когда активация положительна, очевидно, что это лучше, чем, скажем, функция активации...

36
Кто изобрел стохастический градиентный спуск?

Я пытаюсь понять историю градиентного спуска и стохастического градиентного спуска . Градиентный спуск был изобретен в Коши в 1847 году. Общий метод решения проблем симуляций . С. 536–538. Подробнее об этом см. здесь . С тех пор методы градиентного спуска продолжали развиваться, и я не знаком с их...

31
Нужен ли градиентный спуск, чтобы найти коэффициенты модели линейной регрессии?

Я пытался научиться машинному обучению, используя материал Coursera . В этой лекции Эндрю Нг использует алгоритм градиентного спуска, чтобы найти коэффициенты модели линейной регрессии, которая минимизирует функцию ошибки (функцию стоимости). Для линейной регрессии нужен ли градиентный спуск?...

29
Почему бы не использовать третью производную для численной оптимизации?

Если гессианы так хороши для оптимизации (см., Например , метод Ньютона ), зачем останавливаться на достигнутом? Давайте использовать третий, четвертый, пятый и шестой производные? Почему бы...

29
Как получается функция затрат из логистической регрессии

Я прохожу курс машинного обучения в Стэнфорде на Coursera. В главе о логистической регрессии функция затрат выглядит следующим образом: Затем он получен здесь: Я попытался получить производную функции стоимости, но я получил что-то совершенно другое. Как получается производная? Какие промежуточные...

25
Для выпуклых задач всегда ли градиент в Стохастическом градиентном спуске (SGD) указывает на глобальное экстремальное значение?

Учитывая выпуклую функцию стоимости, используя SGD для оптимизации, мы будем иметь градиент (вектор) в определенной точке в процессе оптимизации. Мой вопрос, учитывая точку на выпуклом, градиент только указывает в направлении, в котором функция увеличивается / уменьшается быстрее всего, или...

24
Как определить условие завершения градиентного спуска?

На самом деле, я хотел спросить вас, как я могу определить условие завершения градиентного спуска. Могу ли я остановить его, основываясь на количестве итераций, т.е. учитывая значения параметров, скажем, для 100 итераций? Или мне следует подождать, чтобы различия в значениях двух параметров 'new' и...