Вопросы с тегом «deep-learning»

26
Как оценить потери KLD и потери реконструкции в вариационном авто-кодировщике

почти во всех примерах кода, которые я видел в VAE, функции потерь определяются следующим образом (это код с тензорным потоком, но я видел похожее для theano, torch и т. д. Это также для коннета, но это также не слишком актуально) , только влияет на оси, суммы принимаются): # latent space loss. KL...

26
Нейронная сеть с пропуском слоев

Я заинтересован в регрессии с нейронными сетями. Нейронные сети с нулевыми скрытыми узлами + соединения с пропуском слоев являются линейными моделями. А как насчет тех же нейронных сетей, но со скрытыми узлами? Мне интересно, какова будет роль соединений с пропуском слоя? Интуитивно, я бы сказал,...

26
Почему неактивные функции активации являются проблемой при обратном распространении?

Я прочитал здесь следующее: Сигмоидальные выходы не центрированы по нулю . Это нежелательно, поскольку нейроны на более поздних уровнях обработки в нейронной сети (подробнее об этом в ближайшее время) будут получать данные, которые не центрированы по нулю. Это влияет на динамику во время...

25
Почему выпрямленные линейные единицы считаются нелинейными?

Почему функции активации выпрямленных линейных единиц (ReLU) считаются нелинейными? е( х ) = макс ( 0 , х )f(x)=max(0,x) f(x) = \max(0,x) Они являются линейными, когда входной сигнал положительный, и, насколько я понимаю, для разблокировки репрезентативной силы глубоких сетей необходимы нелинейные...

25
В чем разница между сверточными нейронными сетями и глубоким обучением?

Я хочу использовать глубокое обучение в своем проекте. Я просмотрел пару статей, и у меня возник вопрос: есть ли разница между нейронной сеткой свертки и глубоким обучением? Являются ли эти вещи одинаковыми или имеют какие-то существенные различия, и что...

25
Почему бы просто не выбросить нейронные сети и глубокое обучение? [закрыто]

Закрыто . Этот вопрос основан на мнении . В настоящее время не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы ответить на него фактами и цитатами, отредактировав этот пост . Закрыто 2 года назад . Фундаментальная проблема с глубоким обучением и нейронными сетями в целом....

25
Каковы преимущества стекирования нескольких LSTM?

Каковы преимущества, почему можно использовать несколько LSTM, расположенных рядом друг с другом, в глубокой сети? Я использую LSTM для представления последовательности входов в качестве одного входа. Итак, если у меня есть это единственное представление - зачем мне его снова проходить? Я спрашиваю...

24
Как '12 CNN Крижевского получает 253,440 нейронов в первом слое?

В Alex Krizhevsky et al. При классификации Imagenet с глубокими сверточными нейронными сетями они перечисляют количество нейронов в каждом слое (см. Диаграмму ниже). Сетевой вход имеет размер 150 528, а число нейронов в остальных слоях сети составляет 253 440–186 624–64 896–64 896–43 264–...

24
Как инициализировать элементы матрицы фильтра?

Я пытаюсь лучше понять сверточные нейронные сети, написав код Python, который не зависит от библиотек (например, Convnet или TensorFlow), и я застрял в литературе о том, как выбирать значения для матрицы ядра, когда выполнение свертки на изображении. Я пытаюсь понять детали реализации в шаге между...

24
Что такое вариационные автоэнкодеры и для каких задач обучения они используются?

Согласно этому и этому ответу, автоэнкодеры кажутся техникой, которая использует нейронные сети для уменьшения размеров. Я хотел бы дополнительно знать, что такое вариационный автоэнкодер (его основные отличия / преимущества по сравнению с «традиционными» автоэнкодерами), а также каковы основные...

24
По какой причине Adam Optimizer считается устойчивым к значению своих гиперпараметров?

Я читал об оптимизаторе Адама для Deep Learning и натолкнулся на следующее предложение в новой книге « Deep Learning » Бенджо, Гудфеллоу и Курвилля: Адам, как правило, считается достаточно устойчивым к выбору гиперпараметров, хотя скорость обучения иногда необходимо изменить по сравнению с...

23
Влияет ли формат изображения (png, jpg, gif) на обучение нейронной сети распознавания изображений?

Я знаю, что было много достижений в отношении распознавания изображений, классификации изображений и т. Д. С глубокими, сверточными нейронными сетями. Но если я обучу сеть, скажем, PNG-изображениям, будет ли она работать только для изображений, закодированных таким образом? Какие другие свойства...

23
Какие именно механизмы внимания?

Механизмы внимания использовались в различных документах глубокого обучения в последние несколько лет. Илья Суцкевер, руководитель исследовательского отдела Open AI, с энтузиазмом похвалил их: https://towardsdatascience.com/the-fall-of-rnn-lstm-2d1594c74ce0 Эудженио Кулурчелло из Университета...

23
Какова архитектура сложного сверточного автоэнкодера?

Поэтому я пытаюсь провести предварительную подготовку на изображениях людей, используя сверточные сети. Я прочитал документы ( Paper1 и Paper2 ) и эту ссылку на переполнение стека , но я не уверен, что понимаю структуру сетей (она не очень хорошо определена в статьях). Вопросов: Я могу сделать так,...

22
Почему вывод softmax не является хорошим показателем неопределенности для моделей глубокого обучения?

Я работаю с Convolutional Neural Networks (CNNs) в течение некоторого времени, в основном над данными изображений для семантической сегментации / сегментации экземпляров. Я часто представлял softmax выхода сети как «тепловую карту», ​​чтобы увидеть, насколько высоки активации на пиксель для...

21
Повышение нейронных сетей

В последнее время я работал над алгоритмами повышения обучаемости, такими как adaboost, ускорение градиента, и я знал тот факт, что наиболее часто используемым слабым учеником являются деревья. Я действительно хочу знать, есть ли некоторые недавние успешные примеры (я имею в виду некоторые статьи...

21
Как и почему Пакетная нормализация использует скользящие средние для отслеживания точности модели во время обучения?

Я читал статью о пакетной нормализации (BN) (1) и не понимал необходимости использовать скользящие средние для отслеживания точности модели, и даже если я признал, что это было правильно, я не понимаю что они делают точно. Насколько я понимаю (что я могу ошибаться), в статье упоминается, что она...

21
Как работают узкие места в нейронных сетях?

Мы определяем архитектуру узких мест как тип, найденный в статье ResNet, где [два конвексных слоя 3x3] заменяются на [один конв 1x1, один конв 3x3 и еще один слой конвекс 1x1]. Я понимаю, что конвексные слои 1x1 используются как форма уменьшения размеров (и восстановления), что объясняется в другом...