Вопросы с тегом «neural-networks»

12
Можно ли (теоретически) обучить нейронную сеть с меньшим количеством тренировочных выборок, чем весами?

Прежде всего: я знаю, что для обучения нейронной сети нет общего количества выборок. Это зависит от слишком многих факторов, таких как сложность задачи, шум в данных и так далее. И чем больше у меня будет обучающих образцов, тем лучше будет моя сеть. Но мне было интересно: возможно ли теоретически...

12
Математическое моделирование нейронных сетей как графических моделей

Я изо всех сил пытаюсь сделать математическую связь между нейронной сетью и графической моделью. В графических моделях идея проста: распределение вероятностей разлагается в соответствии с кликами на графике, причем потенциалы обычно имеют экспоненциальное семейство. Есть ли аналогичная аргументация...

12
Почему функция потерь 0-1 неразрешима?

В книге глубокого обучения Яна Гудфеллоу написано, что Иногда функция потерь, о которой мы действительно заботимся (скажем, ошибка классификации), не может быть эффективно оптимизирована. Например, точное минимизация ожидаемых потерь 0-1 обычно трудно (экспоненциально во входном измерении) даже для...

12
Как применять нейронные сети в задачах классификации по нескольким меткам?

Описание: Пусть проблемная область будет классификацией документов, где существует набор векторов признаков, каждый из которых принадлежит одному или нескольким классам. Например, документ doc_1может принадлежать Sportsи Englishкатегориям. Вопрос: Используя нейронную сеть для классификации, какой...

12
Точный критерий Фишера и гипергеометрическое распределение

Я хотел лучше понять точный критерий Фишера, поэтому я разработал следующий пример игрушки, где f и m соответствуют мужской и женской части, а n и y соответствуют «потреблению соды», например: > soda_gender f m n 0 5 y 5 0 Очевидно, это резкое упрощение, но я не хотел, чтобы контекст мешал....

12
Мотивирующие сигмовидные выходные блоки в нейронных сетях, начиная с ненормализованных логарифмических вероятностей, линейных по

Справочная информация: я изучаю 6-ю главу «Глубокое обучение» Иана Гудфеллоу, Йошуа Бенжио и Аарона Курвилля. В разделе 6.2.2.2 (страницы 182 из 183, которые можно посмотреть здесь ) использование сигмоиды для вывода п( у= 1 | х )п(Yзнак равно1|Икс)P(y=1|x) мотивировано . Чтобы суммировать...

12
Каковы преимущества использования байесовской нейронной сети

Недавно я прочитал несколько статей о байесовской нейронной сети (BNN) [Neal, 1992] , [Neal, 2012] , которая дает вероятностное соотношение между входом и выходом в нейронной сети. Обучение такой нейронной сети происходит через MCMC, который отличается от традиционного алгоритма обратного...

12
Почему люди не используют более глубокие RBF или RBF в сочетании с MLP?

Поэтому, рассматривая нейронные сети с радиальной базисной функцией, я заметил, что люди рекомендуют использовать только 1 скрытый слой, тогда как в многослойных нейронных сетях персептрона больше слоев считается лучшим. Учитывая, что сети RBF могут быть обучены с использованием версии обратного...

12
Нелинейность перед конечным слоем Softmax в сверточной нейронной сети

Я изучаю и пытаюсь реализовать сверточные нейронные сети, но я полагаю, что этот вопрос относится к многослойным персептронам в целом. Выходные нейроны в моей сети представляют активацию каждого класса: самый активный нейрон соответствует предсказанному классу для данного входа. Чтобы учесть...

12
Являются ли модели глубокого обучения параметрическими? Или непараметрический?

Я не думаю, что может быть один ответ на все модели глубокого обучения. Какие из моделей глубокого обучения являются параметрическими, а какие непараметрическими и...

12
Насколько глубока связь между функцией softmax в ML и распределением Больцмана в термодинамике?

Функция softmax, обычно используемая в нейронных сетях для преобразования действительных чисел в вероятности, является той же самой функцией, что и распределение Больцмана, распределение вероятностей по энергиям для ансамбля частиц в тепловом равновесии при заданной температуре T в термодинамике. Я...

12
Выбор размера фильтра, шагов и т. Д. В CNN?

Я смотрел лекции CS231N из Стэнфорда и пытался обдумать некоторые проблемы в архитектуре CNN. Я пытаюсь понять, есть ли какие-то общие рекомендации по выбору размера сверточного фильтра и тому подобное, или это больше искусство, чем наука? Я понимаю, что объединение существует главным образом для...

12
Как работает операция DepthConcat в «Идти глубже с извилинами»?

Чтение Углубляясь в свертки, я наткнулся на слой DepthConcat , строительный блок предлагаемых начальных модулей , который объединяет выходные данные нескольких тензоров различного размера. Авторы называют это «Фильтр конкатенации». Там , как представляется , реализация для Torch , но я не очень...

12
Дата / Время кодирования (циклические данные) для нейронных сетей

Как закодировать дату и время события для нейронной сети? У меня нет непрерывных временных рядов, но есть некоторые события с датой и временем, и я анализирую какой-то интерес. Этот интерес различается по утрам и вечерам, а также по будням, летом и зимой, перед Рождеством, Пасхой и т. Д. И сами...

12
Различные определения функции кросс-энтропийной потери

Я начал с изучения нейронных сетей с помощью учебника по нейронным сетям и углублённому изучению точек. В частности, в 3-й главе есть раздел о функции кросс-энтропии, который определяет потерю кросс-энтропии как: С= - 1NΣИксΣJ( уJперaLJ+ ( 1 - уJ) пер( 1 - аLJ)...

12
Нейронные архитектуры: автоматическое проектирование на основе данных

Недавний прогресс в нейронных сетях суммируется последовательностью новых архитектур, характеризующихся главным образом ее растущей сложностью проектирования. От LeNet5 (1994) до AlexNet (2012), Overfeat (2013) и GoogleLeNet / Inception (2014) и так далее ... Есть ли попытка позволить машине решить...

12
Что именно представляет собой блок остаточного обучения в контексте глубоких остаточных сетей в глубоком обучении?

Я читал статью « Глубокое остаточное обучение для распознавания изображений», и мне было трудно со 100% -ной уверенностью понять, что остаточный блок влечет за собой в вычислительном отношении. Читая их бумагу, у них есть рисунок 2: который иллюстрирует то, что должен быть Остаточный Блок. Является...

12
В CNN, апсэмплинг и транспонирование свертки - то же самое?

Термины «повышающая дискретизация» и «транспонированная свертка» используются, когда вы делаете «деконволюцию» (<- не очень хороший термин, но позвольте мне использовать его здесь). Первоначально я думал, что они означают одно и то же, но мне кажется, что они разные после того, как я прочитал...