Вопросы с тегом «deep-learning»

13
Как тренировать LSTM слой глубокой сети

Я использую lstm и сеть прямой связи для классификации текста. Я преобразую текст в горячие векторы и подаю каждый в lstm, чтобы суммировать его как единое представление. Затем я передаю его в другую сеть. Но как мне тренировать LSTM? Я просто хочу последовательно классифицировать текст - я должен...

13
Как именно сверточные нейронные сети используют свертку вместо умножения матриц?

Я читал Книгу Йошуа Бенжио по глубокому обучению, и на странице 224 написано: Сверточные сети - это просто нейронные сети, которые используют свертку вместо общего умножения матриц, по крайней мере, на одном из их уровней. однако я не был уверен на 100% в том, как «заменить умножение матриц...

13
Может ли нейронная сеть (например, сверточная нейронная сеть) иметь отрицательные веса?

Можно ли иметь отрицательные веса (после достаточного количества эпох) для глубоких сверточных нейронных сетей, когда мы используем ReLU для всех уровней

13
Почему на практике не используется алгоритм спуска «без седловых ньютонов»?

Недавно я прочитал статью Yann Dauphin et al. Выявление и устранение проблемы седловой точки в многомерной невыпуклой оптимизации , где они вводят интересный алгоритм спуска, называемый Ньютоном без седла , который, похоже, специально предназначен для оптимизации нейронной сети и не должен страдать...

13
Что такое байесовское глубокое обучение?

Что такое байесовское глубокое обучение и как оно относится к традиционной байесовской статистике и традиционному глубокому обучению? Каковы основные понятия и математика? Могу ли я сказать, что это просто непараметрическая байесовская статистика? Каковы его основные работы, а также его текущие...

13
Предотвращение перенастройки LSTM на небольшой набор данных

Я моделирую 15000 твитов для прогнозирования настроений, используя однослойный LSTM со 128 скрытыми единицами, используя word2vec-подобное представление с 80 измерениями. Я получаю точность снижения (38% со случайным = 20%) после 1 эпохи. Большее количество тренировок приводит к тому, что точность...

13
Существует ли визуальный инструмент для проектирования и применения нейронных сетей / глубокого обучения? [закрыто]

Закрыто. Этот вопрос не по теме . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыт 10 месяцев назад . Я знаю, что есть много библиотек для машинного обучения и глубокого обучения, таких как caffe,...

13
Каковы некоторые полезные методы увеличения данных для глубоких сверточных нейронных сетей?

Справочная информация: Недавно я понял на более глубоком уровне важность увеличения данных при обучении сверточных нейронных сетей, увидев этот прекрасный доклад Джеффри Хинтона . Он объясняет, что сверточные нейронные сети текущего поколения не способны обобщить систему отсчета тестируемого...

13
Что означает «конец в конец» в методах глубокого обучения?

Я хочу знать, что это такое, и чем оно отличается от ансамбля? Предположим, я хочу добиться высокой точности в классификации и сегментации для конкретной задачи, если для этого я использую разные сети, такие как CNN, RNN и т. Д., Называется ли это сквозной моделью? (архитектура?) или...

13
Почему нейронные сети легко обмануть?

Я читал некоторые статьи о ручном создании изображений, чтобы «обмануть» нейронную сеть (см. Ниже). Это потому, что сети моделируют только условную вероятность ? Если сеть может смоделировать общую вероятность p ( y , x ) , будут ли такие случаи происходить?р ( у| х)п(Y|Икс)p(y|x)р ( у, Х...

13
Почему обучение глубокому подкреплению нестабильно?

В документе DeepMind 2015 года об обучении глубокому подкреплению говорится, что «предыдущие попытки объединить RL с нейронными сетями в значительной степени потерпели неудачу из-за нестабильного обучения». Затем в документе перечислены некоторые причины этого, основанные на корреляции между...

13
Модель Google Inception: почему существует несколько softmax?

Топологию модели Google Inception можно найти здесь: Google Inception Netowrk Я заметил, что в этой модели есть 3 слоя softmax (# 154, # 152, # 145), и 2 из них являются своего рода ранним выходом из этой модели. Из того, что я знаю, слой softmax предназначен для окончательного вывода, так почему...

12
Матричная форма обратного распространения с нормализацией партии

Нормализация партии была приписана существенным улучшениям производительности в глубоких нейронных сетях. Много материала в интернете показывает, как реализовать его на основе активации за активацию. Я уже реализовал backprop, используя матричную алгебру, и учитывая, что я работаю на языках...

12
Дата / Время кодирования (циклические данные) для нейронных сетей

Как закодировать дату и время события для нейронной сети? У меня нет непрерывных временных рядов, но есть некоторые события с датой и временем, и я анализирую какой-то интерес. Этот интерес различается по утрам и вечерам, а также по будням, летом и зимой, перед Рождеством, Пасхой и т. Д. И сами...

12
В чем разница между «регулярной» линейной регрессией и глубокой обучаемостью?

Я хочу знать разницу между линейной регрессией в обычном анализе машинного обучения и линейной регрессией в условиях «глубокого обучения». Какие алгоритмы используются для линейной регрессии в условиях глубокого...

12
Keras: почему убыток уменьшается, а val_loss увеличивается?

Я настроил сетку для поиска группы параметров. Я пытаюсь найти лучшие параметры для нейронной сети Keras, которая выполняет бинарную классификацию. Выходное значение равно 1 или 0. Имеется около 200 функций. Когда я сделал поиск по сетке, я получил несколько моделей и их параметры. Лучшая модель...

12
Нейронная сеть для множественной выходной регрессии

У меня есть набор данных, содержащий 34 входных столбца и 8 выходных столбцов. Один из способов решения этой проблемы - взять 34 входа и построить индивидуальную модель регрессии для каждого выходного столбца. Мне интересно, если эта проблема может быть решена с помощью только одной модели,...

12
Выбор размера фильтра, шагов и т. Д. В CNN?

Я смотрел лекции CS231N из Стэнфорда и пытался обдумать некоторые проблемы в архитектуре CNN. Я пытаюсь понять, есть ли какие-то общие рекомендации по выбору размера сверточного фильтра и тому подобное, или это больше искусство, чем наука? Я понимаю, что объединение существует главным образом для...

12
Мотивирующие сигмовидные выходные блоки в нейронных сетях, начиная с ненормализованных логарифмических вероятностей, линейных по

Справочная информация: я изучаю 6-ю главу «Глубокое обучение» Иана Гудфеллоу, Йошуа Бенжио и Аарона Курвилля. В разделе 6.2.2.2 (страницы 182 из 183, которые можно посмотреть здесь ) использование сигмоиды для вывода п( у= 1 | х )п(Yзнак равно1|Икс)P(y=1|x) мотивировано . Чтобы суммировать...