Вопросы с тегом «deep-learning»

новая область исследований в области машинного обучения, связанная с технологиями, используемыми для изучения иерархического представления данных, в основном с глубокими нейронными сетями (т. е. с двумя или более скрытыми слоями), а также с какими-то вероятностными графическими моделями.

119
В чем проблема «умирающего ReLU» в нейронных сетях?

Ссылаясь на заметки Стэнфордского курса о сверточных нейронных сетях для визуального распознавания , в параграфе говорится: «К сожалению, юниты ReLU могут быть хрупкими во время обучения и могут« умереть ». Например, большой градиент, протекающий через нейрон ReLU, может привести к тому, что веса...

95
Когда использовать GRU поверх LSTM?

Основное различие между ГРУ и LSTM является то , что ГРУ имеет два ворот ( сброс и обновление Gates) в то время как LSTM имеет три ворота (а именно вход , выход и забыть ворота). Почему мы используем GRU, когда мы четко контролируем сеть через модель LSTM (так как у нас три шлюза)? В каком сценарии...

85
Выбор скорости обучения

В настоящее время я работаю над внедрением Stochastic Gradient Descent, SGDдля нейронных сетей, использующих обратное распространение, и, хотя я понимаю его назначение, у меня есть несколько вопросов о том, как выбрать значения для скорости обучения. Связана ли скорость обучения с формой градиента...

80
Как вы визуализируете архитектуры нейронных сетей?

При написании статьи / создании презентации по теме, касающейся нейронных сетей, обычно визуализируют архитектуру сетей. Каковы хорошие / простые способы автоматической визуализации общих...

64
Прогнозирование временных рядов с использованием ARIMA против LSTM

Проблема, с которой я имею дело, заключается в прогнозировании значений временных рядов. Я смотрю на один временной ряд за раз и на основе, например, 15% входных данных, я хотел бы предсказать его будущие значения. До сих пор я сталкивался с двумя моделями: LSTM (долговременная кратковременная...

51
Когда использовать (He или Glorot) нормальную инициализацию поверх равномерного init? И каковы его эффекты с нормализацией партии?

Я знал, что Residual Network (ResNet) сделал обычную инициализацию популярной. В ResNet используется обычная инициализация He , в то время как первый уровень использует равномерную инициализацию He. Я просмотрел документ ResNet и документ «Углубление в выпрямители» (документ об инициализации), но я...

50
Как бороться с подгонкой в ​​глубокой нейронной сети

Когда я начинал с искусственных нейронных сетей (NN), я думал, что мне придется бороться с переоснащением в качестве основной проблемы. Но на практике я даже не могу заставить свой NN пройти барьер 20% ошибок. Я даже не могу побить свой счет в случайном лесу! Я ищу какой-то очень общий или не очень...

43
Количество параметров в модели LSTM

Сколько параметров у одного стекового LSTM? Количество параметров накладывает нижнюю границу на количество необходимых обучающих примеров, а также влияет на время обучения. Следовательно, знание количества параметров полезно для моделей обучения, использующих...

43
Добавление функций к модели временных рядов LSTM

немного читал о LSTM и их использовании для временных рядов, и это было интересно, но в то же время сложно. У меня возникли трудности с пониманием - это подход к добавлению дополнительных функций в список временных рядов. Предположим, у вас есть такой набор данных: т-3, Т-2, Т-1, выход Теперь...

40
Почему размер мини-партии лучше, чем одна «партия» со всеми данными обучения?

Я часто читаю, что в случае моделей глубокого обучения обычная практика - применять мини-партии (как правило, маленькие, 32/64) в течение нескольких тренировочных эпох. Я не могу понять причину этого. Если я не ошибаюсь, размер пакета - это количество обучающих экземпляров, которые модель увидит во...

38
Влияет ли batch_size в Keras на качество результатов?

Я собираюсь обучить большую сеть LSTM с 2-3 миллионами статей и борюсь с ошибками памяти (я использую AWS EC2 g2x2large). Я обнаружил, что одним из решений является снижение batch_size. Однако я не уверен, относится ли этот параметр только к проблемам эффективности памяти или повлияет ли он на мои...

38
В чем разница между «эквивалентным переводу» и «инвариантным переводом»

У меня проблемы с пониманием разницы между эквивариантным переводом и инвариантным переводом . В книге Глубокое обучение . MIT Press, 2016 (И. Гудфеллоу, А. Курвилл и Ю. Бенжио), можно найти в сверточных сетях: [...] особая форма совместного использования параметров приводит к тому, что уровень...

35
Объяснение потери энтропии

Предположим, я строю NN для классификации. Последний слой является плотным слоем с активацией softmax. У меня есть пять разных классов для классификации. Предположим , что для одного примера обучения, true labelявляется в [1 0 0 0 0]то время как прогнозы будут [0.1 0.5 0.1 0.1 0.2]. Как бы я...

35
Смешные цитаты, связанные с наукой о данных

Пользователи различных сообществ обычно цитируют забавные вещи об их полях. Может быть интересно поделиться своими забавными вещами о машинном обучении, углубленном обучении, науке о данных и вещах, с которыми вы сталкиваетесь...

33
Multi GPU в керасе

Как вы можете программировать в библиотеке keras (или тензорном потоке), чтобы разделить обучение на несколько графических процессоров? Допустим, вы находитесь в экземпляре Amazon ec2 с 8 графическими процессорами, и вы хотели бы использовать их все для ускорения обучения, но ваш код предназначен...

32
Интуитивно понятное объяснение потери шумовой контрастной оценки (NCE)?

Я читал о NCE (форма выборки кандидатов) из этих двух источников: Тензор потока записи Оригинальная бумага Может ли кто-нибудь помочь мне со следующим: Простое объяснение того, как работает NCE (я обнаружил, что вышеизложенное трудно разобрать и понять, поэтому что-то интуитивное, что приводит к...

30
Что такое наземная истина

В контексте машинного обучения я часто видел термин « Основополагающая истина» . Я много искал и нашел следующее определение в Википедии : В машинном обучении термин «наземная истина» относится к точности классификации учебного набора для контролируемых методов обучения. Это используется в...

30
Глубокое обучение против повышения градиента: когда и что использовать?

У меня проблема с большими данными с большим набором данных (например, 50 миллионов строк и 200 столбцов). Набор данных состоит из около 100 числовых столбцов и 100 категориальных столбцов и столбца ответов, представляющего проблему двоичного класса. Мощность каждого из категориальных столбцов...

30
Статья. В чем разница между нормализацией слоев, периодической нормализацией партии (2016 г.) и нормализованной партией RNN (2015 г.)?

Итак, недавно появилась статья о нормализации слоя . Есть также реализация этого на Керасе. Но я помню, что есть статьи под названием Рекуррентная пакетная нормализация (Cooijmans, 2016) и Пакетная нормализованная рекуррентная нейронная сеть (Laurent, 2015). В чем разница между этими тремя? Есть...