Вопросы с тегом «backpropagation»

94

Можно ли обучить нейронную сеть без обратного распространения?

Многие книги и учебные пособия по нейронной сети тратят много времени на алгоритм обратного распространения, который по сути является инструментом для вычисления градиента. Давайте предположим, что мы строим модель с ~ 10K параметров / весов. Можно ли запустить оптимизацию, используя некоторые...

49

Насколько большим должен быть размер партии для стохастического градиентного спуска?

Я понимаю, что стохастический градиентный спуск может быть использован для оптимизации нейронной сети с использованием обратного распространения путем обновления каждой итерации различным образцом обучающего набора данных. Насколько большим должен быть размер...

machine-learning neural-networks gradient-descent backpropagation

41

Чем softmax_cross_entropy_with_logits отличается от softmax_cross_entropy_with_logits_v2?

В частности, я предполагаю, что мне интересно это утверждение: Будущие основные версии TensorFlow позволят градиентам перетекать в метки, введенные на backprop по умолчанию. Который показан, когда я использую tf.nn.softmax_cross_entropy_with_logits. В том же сообщении он призывает меня взглянуть...

machine-learning supervised-learning tensorflow backpropagation

34

Обратное распространение против генетического алгоритма для обучения нейронной сети

Я читал несколько статей, в которых обсуждались плюсы и минусы каждого метода, некоторые утверждали, что GA не дает никакого улучшения в поиске оптимального решения, в то время как другие показывают, что оно более эффективно. Кажется, что GA в литературе обычно предпочитают (хотя в основном люди...

neural-networks genetic-algorithms backpropagation

33

Почему tanh почти всегда лучше сигмовидной как функция активации?

В курсе Эндрю Нг « Нейронные сети и глубокое обучение» на Coursera он говорит, что использование tanhTaNчасtanh почти всегда предпочтительнее использования sigmoidsягмояdsigmoid . Причине он дает то , что выходные сигналы с помощью tanhTaNчасtanh центром , вокруг 0 , а не sigmoidsягмояdsigmoid «с...

machine-learning neural-networks backpropagation sigmoid-curve

30

Опасность установки всех начальных весов в ноль при обратном распространении

Почему опасно инициализировать веса нулями? Есть ли простой пример, который демонстрирует

neural-networks backpropagation

26

Почему неактивные функции активации являются проблемой при обратном распространении?

Я прочитал здесь следующее: Сигмоидальные выходы не центрированы по нулю . Это нежелательно, поскольку нейроны на более поздних уровнях обработки в нейронной сети (подробнее об этом в ближайшее время) будут получать данные, которые не центрированы по нулю. Это влияет на динамику во время...

neural-networks deep-learning backpropagation

22

Зачем использовать градиентный спуск с нейронными сетями?

При обучении нейронной сети с использованием алгоритма обратного распространения метод градиентного спуска используется для определения обновлений веса. Мой вопрос: вместо того, чтобы использовать метод градиентного спуска, чтобы медленно найти минимальную точку относительно определенного веса,...

neural-networks gradient-descent backpropagation

22

Обратное распространение градиента через пропускаемые соединения ResNet

Мне любопытно, как градиенты распространяются обратно через нейронную сеть с помощью модулей ResNet / пропуска соединений. Я видел пару вопросов о ResNet (например, Нейронная сеть с пропускаемыми соединениями ), но этот вопрос специально задает о обратном распространении градиентов во время...

machine-learning neural-networks conv-neural-network gradient-descent backpropagation

20

В нейронных сетях зачем использовать градиентные методы, а не другие метаэвристики?

Почему в обучении глубоких и неглубоких нейронных сетей обычно используются градиентные методы (например, градиентный спуск, Нестеров, Ньютон-Рафсон), а не другие метаэвристики? Под метаэвристикой я подразумеваю такие методы, как имитация отжига, оптимизация колоний муравьев и т. Д., Которые были...

neural-networks optimization deep-learning gradient-descent backpropagation

20

Почему обратное распространение не работает, когда вы инициализируете весовые значения одного и того же значения?

Почему обратное распространение не работает, когда вы инициализируете все веса одним и тем же значением (скажем, 0,5), но работает нормально, когда заданы случайные числа? Разве алгоритм не должен вычислять ошибку и работать оттуда, несмотря на то, что веса изначально...

machine-learning neural-networks backpropagation

19

Алгоритм обратного распространения

Я получил небольшую путаницу с алгоритмом обратного распространения , используемым в многослойном персептроне (MLP). Ошибка корректируется функцией стоимости. В обратном распространении мы пытаемся отрегулировать вес скрытых слоев. Я могу понять ошибку вывода, то есть e = d - y[Без подписки]....

machine-learning neural-networks backpropagation

15

Сумма или среднее градиентов в (мини) пакетном градиенте приличное?

Когда я реализовал мини-пакетный градиент приличный, я просто усреднил градиенты всех примеров в обучающей партии. Тем не менее, я заметил, что сейчас оптимальная скорость обучения намного выше, чем для приличного онлайн градиента. Моя интуиция заключается в том, что это происходит из-за того, что...

neural-networks gradient-descent backpropagation

14

Зачем обратно размножаться во времени в РНН?

В рекуррентной нейронной сети вы, как правило, продвигаетесь вперед через несколько временных шагов, «разворачиваете» сеть, а затем распространяетесь обратно через последовательность входов. Почему бы вам не просто обновить веса после каждого отдельного шага в последовательности? (эквивалент...

time-series neural-networks backpropagation rnn

13

В чем преимущество усеченного нормального распределения при инициализации весов в нейронной сети?

При инициализации весов соединений в нейронной сети с прямой связью важно инициализировать их случайным образом, чтобы избежать любых симметрий, которые алгоритм обучения не сможет нарушить. Рекомендация, которую я видел в разных местах (например, в учебнике MNIST от TensorFlow ), заключается в...

neural-networks backpropagation weights truncated-normal

13

Почему RNN с блоками LSTM также могут страдать от «взрывных градиентов»?

У меня есть базовые знания о том, как работают RNN (и, в частности, с блоками LSTM). У меня есть графическое представление об архитектуре модуля LSTM, то есть ячейки и нескольких шлюзов, которые регулируют поток значений. Однако, по-видимому, я не до конца понял, как LSTM решает проблему...

neural-networks lstm rnn backpropagation

12

Захват начальных образцов при использовании усеченного обратного распространения по времени (RNN / LSTM)

Скажем, я использую RNN / LSTM для анализа настроений, который является подходом «многие к одному» (см. Этот блог ). Сеть обучается по усеченному обратному распространению по времени (BPTT), где сеть разворачивается всего за 30 последних шагов, как обычно. В моем случае каждый из моих текстовых...

neural-networks deep-learning natural-language backpropagation

12

Матричная форма обратного распространения с нормализацией партии

Нормализация партии была приписана существенным улучшениям производительности в глубоких нейронных сетях. Много материала в интернете показывает, как реализовать его на основе активации за активацию. Я уже реализовал backprop, используя матричную алгебру, и учитывая, что я работаю на языках...

machine-learning neural-networks deep-learning backpropagation batch-normalization

12

Как мини-пакетный градиентный спуск обновляет веса для каждого примера в пакете?

Если мы обрабатываем, скажем, 10 примеров в пакете, я понимаю, что мы можем суммировать потери для каждого примера, но как работает обратное распространение в отношении обновления весов для каждого примера? Например: Пример 1 -> потеря = 2 Пример 2 -> потеря = -2 Это приводит к средней потере...

neural-networks gradient-descent backpropagation tensorflow

11

Обучение сверточной нейронной сети

В настоящее время я работаю над программным обеспечением для распознавания лиц, которое использует нейронные сети свертки для распознавания лиц. Основываясь на своих результатах, я понял, что сверточная нейронная сеть имеет общие веса, чтобы сэкономить время во время обучения. Но как адаптировать...

machine-learning neural-networks computer-vision backpropagation conv-neural-network