Вопросы с тегом «neural-networks»

21
Причина не сокращения срока смещения (перехвата) в регрессии

Для линейной модели y=β0+xβ+εYзнак равноβ0+Иксβ+εy=\beta_0+x\beta+\varepsilon сжимающий член всегда равен P(β)п(β)P(\beta) . В чем причина того, что мы не уменьшаем смещение (перехват) члена β0β0\beta_0 ? Должны ли мы сократить срок смещения в моделях нейронных...

21
Сверточная нейронная сеть для временных рядов?

Я хотел бы знать, существует ли код для обучения сверточной нейронной сети для классификации временных рядов. Я видел несколько недавних работ ( http://www.fer.unizg.hr/_download/repository/KDI-Djalto.pdf ), но я не уверен, существует ли что-то или я должен написать это...

21
От правила персептрона к градиентному спуску: чем отличаются перцептроны с функцией активации сигмовидной кишки от логистической регрессии?

По сути, мой вопрос заключается в том, что в многослойных персептронах персептроны используются с сигмовидной активационной функцией. Так что в правиле обновления у вычисляется какY^Y^\hat{y} Y^= 11 + опыт( - шTИкся)Y^знак равно11+ехр⁡(-весTИкся)\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)}...

21
Каковы преимущества использования ReLU по сравнению с softplus в качестве функций активации?

Часто упоминается, что выпрямленные линейные единицы (ReLU) вытеснили единицы softplus, потому что они линейны и быстрее вычисляются. Есть ли у softplus преимущество в том, что оно вызывает редкость или оно ограничено ReLU? Причина, по которой я спрашиваю, заключается в том, что я задаюсь вопросом...

21
Потеря обучения увеличивается со временем [дубликат]

На этот вопрос уже есть ответы здесь : Как изменение функции стоимости может быть положительным? (1 ответ) Что мне делать, если моя нейронная сеть не учится? (5 ответов) Закрыто в прошлом месяце . Я тренирую модель (Recurrent Neural Network), чтобы классифицировать 4 типа последовательностей. Во...

21
Как мне улучшить мою нейронную сеть при прогнозировании синусоидальных волн?

Вот, посмотрите: вы можете точно увидеть, где заканчиваются тренировочные данные. Тренировочные данные идут от до 1 .- 1-1-1111 Я использовал Keras и плотную сеть 1-100-100-2 с активацией tanh. Я вычисляю результат по двум значениям, p и q как p / q. Таким образом, я могу получить любой размер...

21
Как и почему Пакетная нормализация использует скользящие средние для отслеживания точности модели во время обучения?

Я читал статью о пакетной нормализации (BN) (1) и не понимал необходимости использовать скользящие средние для отслеживания точности модели, и даже если я признал, что это было правильно, я не понимаю что они делают точно. Насколько я понимаю (что я могу ошибаться), в статье упоминается, что она...

20
Разница между обратной связью RNN и LSTM / GRU

Я пытаюсь понять различные архитектуры рекуррентных нейронных сетей (RNN), которые должны применяться к данным временных рядов, и меня немного путают с разными именами, которые часто используются при описании RNN. Является ли структура долгосрочной кратковременной памяти (LSTM) и Gated Recurrent...

20
Какие методы оптимизации лучше всего подходят для LSTM?

Я использовал theano для экспериментов с LSTM, и мне было интересно, какие методы оптимизации (SGD, Adagrad, Adadelta, RMSprop, Adam и т. Д.) Лучше всего подходят для LSTM? Есть ли исследовательские работы на эту тему? Кроме того, зависит ли ответ от типа приложения, для которого я использую LSTM?...

20
Как правильно использовать раннюю остановку для тренировки глубокой нейронной сети?

У меня есть модель глубокой нейронной сети, и мне нужно обучить ее на моем наборе данных, который состоит из около 100 000 примеров, мои данные проверки содержат около 1000 примеров. Поскольку для обучения каждого примера требуется время (около 0,5 с для каждого примера) и во избежание...

20
Почему обратное распространение не работает, когда вы инициализируете весовые значения одного и того же значения?

Почему обратное распространение не работает, когда вы инициализируете все веса одним и тем же значением (скажем, 0,5), но работает нормально, когда заданы случайные числа? Разве алгоритм не должен вычислять ошибку и работать оттуда, несмотря на то, что веса изначально...

20
От байесовских сетей к нейронным сетям: как многомерная регрессия может быть перенесена в сеть с несколькими выходами

Я имею дело с байесовской иерархической линейной моделью , здесь описывается сеть. представляет ежедневные продажи продукта в супермаркете (наблюдается).YYY - известная матрица регрессоров, включая цены, акции, день недели, погоду, праздники.XXX - неизвестный уровень скрытого запаса каждого...

20
Почему функция softmax используется для вычисления вероятностей, хотя мы можем разделить каждое значение на сумму вектора?

Применение функции softmax к вектору даст «вероятности» и значения между и . 000111 Но мы также можем разделить каждое значение на сумму вектора, и это даст вероятности и значения между и .000111 Я прочитал ответ здесь, но он говорит, что причина в том, что он дифференцируем, хотя обе функции...

20
В нейронных сетях зачем использовать градиентные методы, а не другие метаэвристики?

Почему в обучении глубоких и неглубоких нейронных сетей обычно используются градиентные методы (например, градиентный спуск, Нестеров, Ньютон-Рафсон), а не другие метаэвристики? Под метаэвристикой я подразумеваю такие методы, как имитация отжига, оптимизация колоний муравьев и т. Д., Которые были...

20
Это хорошая идея использовать CNN для классификации 1D сигнала?

Я работаю над классификацией стадии сна. Я читал некоторые исследовательские статьи на эту тему, многие из них использовали SVM или метод ансамбля. Является ли хорошей идеей использовать сверточную нейронную сеть для классификации одномерного сигнала ЭЭГ? Я новичок в такой работе. Простите, если я...

20
Как настроить нейронную сеть для вывода порядковых данных?

У меня есть нейронная сеть, настроенная для предсказания чего-то, где выходная переменная является порядковой. Я опишу ниже, используя три возможных выхода A <B <C. Совершенно очевидно, как использовать нейронную сеть для вывода категориальных данных: выходные данные - это просто максимальное...

20
В чем разница между инициализатором масштабирования дисперсии и инициализатором xavier?

Я обнаружил, что в реализации ResNet от Tensorflow они используют инициализатор дисперсионного масштабирования, а также популярный инициализатор xavier . У меня нет большого опыта в этом, что лучше на...

20
Глубокое обучение: Как узнать, какие переменные важны?

С точки зрения языка нейронной сети (у = вес * х + смещение), как я узнаю, какие переменные являются более важными, чем другие? У меня есть нейронная сеть с 10 входами, 1 скрытый слой с 20 узлами и 1 выходной слой с 1 узлом. Я не уверен, как узнать, какие входные переменные являются более...

20
Данные об угле кодирования для нейронной сети

Я тренирую нейронную сеть (детали не важны), где целевые данные - это вектор углов (между 0 и 2 * пи). Я ищу совет о том, как кодировать эти данные. Вот что я сейчас пытаюсь (с ограниченным успехом): 1) Кодирование 1-в-C: я устанавливаю возможные углы в 1000 или около того дискретных углов, а затем...

19
Алгоритм обратного распространения

Я получил небольшую путаницу с алгоритмом обратного распространения , используемым в многослойном персептроне (MLP). Ошибка корректируется функцией стоимости. В обратном распространении мы пытаемся отрегулировать вес скрытых слоев. Я могу понять ошибку вывода, то есть e = d - y[Без подписки]....