Вопросы с тегом «deep-learning»

11
Как реализовать регуляризацию L2 к произвольной точке в пространстве?

Вот что я прочитал в книге Яна Гудфеллоу « Глубокое обучение» . В контексте нейронных сетей «штраф за норму параметра L2 обычно известен как затухание веса. Эта стратегия регуляризации приближает веса к началу координат [...]. В более общем смысле, мы могли бы упорядочить параметры, чтобы они были...

11
Почему бы нам просто не изучить гиперпараметры?

Я реализовывал довольно популярную статью « ОБЪЯСНЕНИЕ И ПРИМЕНЕНИЕ ОБОБЩЕННЫХ ПРИМЕРОВ », и в статье она обучает противоборствующей целевой функции. J '' (θ) = αJ (θ) + (1 - α) J '(θ). Он рассматривает α как гиперпараметр. α может быть 0,1, 0,2, 0,3 и т. д. Независимо от этой конкретной статьи,...

10
Как определить количество сверточных операторов в CNN?

В задачах компьютерного зрения, таких как классификация объектов, с помощью сверточных нейронных сетей (CNN), сеть обеспечивает привлекательную производительность. Но я не уверен, как настроить параметры в сверточных слоях. Например, в градациях серого изображения ( 480x480) первый сверточный слой...

10
Как классифицировать несбалансированный набор данных по сверточным нейронным сетям (CNN)?

У меня есть несбалансированный набор данных в задаче двоичной классификации, где количество положительных и отрицательных значений составляет 0,3% против 99,7%. Разрыв между позитивами и негативами огромен. Когда я тренирую CNN со структурой, используемой в задаче MNIST, результат тестирования...

10
Можно ли обучить нейронную сеть рисовать картинку в определенном стиле?

Можно ли научить нейронную сеть рисовать картинку в определенном стиле? (Таким образом, он берет изображение и перерисовывает его в стиле, для которого он был обучен.) Есть ли одобренная технология для такого рода вещей? Я знаю об алгоритме DeepArt. Хорошо заполнить основное изображение...

10
Прогнозирование требований к памяти ЦП и ГП для обучения DNN

Скажем, у меня есть модель архитектуры глубокого обучения, а также выбранный размер мини-пакета. Как я могу извлечь из этих ожидаемых требований к памяти для обучения этой модели? В качестве примера рассмотрим (неповторяющуюся) модель с входом измерения 1000, 4 полностью подключенными скрытыми...

10
Разница между нейронной сетью и глубоким обучением

С точки зрения различий между нейронной сетью и глубоким обучением мы можем перечислить несколько элементов, таких как добавление большего количества слоев, массивный набор данных, мощное компьютерное оборудование, чтобы сделать обучение сложной моделью. Помимо этого, есть ли более подробное...

10
RNN с L2 Regularization перестает учиться

Я использую Двунаправленный RNN, чтобы обнаружить случай несбалансированного события. Положительный класс в 100 раз реже, чем отрицательный. Пока не используется регуляризация, я могу получить 100% точность в наборе поездов и 30% в наборе проверки. Я включаю регуляризацию l2, и в результате...

10
Как SVM = соответствие шаблона?

Я прочитал о SVM и узнал, что они решают проблему оптимизации, и идея максимальной маржи была очень разумной. Теперь, используя ядра, они могут найти даже нелинейные границы разделения, что было здорово. До сих пор я действительно не представляю, как SVM (специальная машина ядра) и машины ядра...

10
Анкер Faster RCNN

В статье Faster RCNN, когда речь идет об привязке, что они подразумевают под использованием «пирамид справочных блоков» и как это делается? Означает ли это, что в каждой из опорных точек W * H * k создается ограничивающий прямоугольник? Где W = ширина, H = высота и k = количество соотношений сторон...

10
WaveNet на самом деле не расширенная свертка, не так ли?

В недавней статье WaveNet авторы ссылаются на свою модель как на сложенные слои расширенных извилин. Они также производят следующие диаграммы, объясняющие разницу между «обычными» сверточными и дилатационными сверточками. Обычные свертки выглядят так: Это свертка с размером фильтра 2 и шагом 1,...

10
Какую функцию потерь я должен использовать для оценки модели seq2seq RNN?

Я работаю над статьей Cho 2014, в которой была представлена ​​архитектура кодер-декодер для моделирования seq2seq. В статье они, похоже, используют вероятность выходных данных при заданном входном сигнале (или его отрицательной логарифмической вероятности) в качестве функции потерь для входного...

10
В чем разница между VAE и стохастическим обратным распространением для моделей с глубокой генерацией?

В чем разница между авто-кодированием вариационного байесовского алгоритма и стохастическим обратным распространением для моделей с глубокой генерацией ? Приводит ли вывод в обоих методах к тем же результатам? Я не знаю каких-либо явных сравнений между этими двумя методами, несмотря на то, что обе...

9
Какие рекомендации следует соблюдать для использования нейронных сетей с разреженными входами

У меня очень разреженные входы, например, расположение определенных функций на входном изображении. Кроме того, каждая функция может иметь несколько обнаружений (не уверен, что это повлияет на конструкцию системы). Это я буду представлять как двоичное изображение k-канала с включенными пикселями,...

9
Рецептивное поле нейронов в LeNet

Я пытаюсь лучше понять рецептивные поля CNN. Для этого я хотел бы рассчитать рецептивное поле каждого нейрона в LeNet. Для обычного MLP это довольно просто (см. Http://deeplearning.net/tutorial/lenet.html#sparse-connectivity ), но сложнее рассчитать рецептивное поле нейрона в слое, следующем за...

9
Узкое место применения глубокого обучения на практике

После прочтения большого количества документов для глубокого изучения возникает некое ощущение, что существует множество хитростей в обучении сети, чтобы получить лучшую, чем обычно, производительность. С точки зрения отраслевых приложений очень трудно разрабатывать подобные приемы, за исключением...

9
Лучшее использование LSTM для прогнозирования событий последовательности

Предположим следующую одномерную последовательность: A, B, C, Z, B, B, #, C, C, C, V, $, W, A, % ... Письма A, B, C, ..здесь представляют «обычные» события. #, $, %, ...Здесь символы обозначают «особые» события Временной интервал между всеми событиями является неоднородным (от секунд до дней), хотя...

9
Выбор функций с использованием глубокого обучения?

Я хочу рассчитать важность каждой входной функции, используя глубокую модель. Но я нашел только одну статью о выборе функций с использованием глубокого обучения - глубокий выбор функций . Они вставляют слой узлов, связанных с каждым объектом, непосредственно перед первым скрытым слоем. Я слышал,...