Вопросы с тегом «deep-learning»

12
Использовать коэффициент корреляции Пирсона в качестве цели оптимизации в машинном обучении

В машинном обучении (для проблем регрессии) я часто вижу среднеквадратическую ошибку (MSE) или среднюю абсолютную ошибку (MAE), используемую в качестве функции ошибки для минимизации (плюс термин регуляризации). Мне интересно, есть ли ситуации, когда использование коэффициента корреляции было бы...

12
Нейронные архитектуры: автоматическое проектирование на основе данных

Недавний прогресс в нейронных сетях суммируется последовательностью новых архитектур, характеризующихся главным образом ее растущей сложностью проектирования. От LeNet5 (1994) до AlexNet (2012), Overfeat (2013) и GoogleLeNet / Inception (2014) и так далее ... Есть ли попытка позволить машине решить...

12
Почему функция потерь 0-1 неразрешима?

В книге глубокого обучения Яна Гудфеллоу написано, что Иногда функция потерь, о которой мы действительно заботимся (скажем, ошибка классификации), не может быть эффективно оптимизирована. Например, точное минимизация ожидаемых потерь 0-1 обычно трудно (экспоненциально во входном измерении) даже для...

12
Что именно представляет собой блок остаточного обучения в контексте глубоких остаточных сетей в глубоком обучении?

Я читал статью « Глубокое остаточное обучение для распознавания изображений», и мне было трудно со 100% -ной уверенностью понять, что остаточный блок влечет за собой в вычислительном отношении. Читая их бумагу, у них есть рисунок 2: который иллюстрирует то, что должен быть Остаточный Блок. Является...

12
Матричная форма обратного распространения с нормализацией партии

Нормализация партии была приписана существенным улучшениям производительности в глубоких нейронных сетях. Много материала в интернете показывает, как реализовать его на основе активации за активацию. Я уже реализовал backprop, используя матричную алгебру, и учитывая, что я работаю на языках...

12
В чем разница между «регулярной» линейной регрессией и глубокой обучаемостью?

Я хочу знать разницу между линейной регрессией в обычном анализе машинного обучения и линейной регрессией в условиях «глубокого обучения». Какие алгоритмы используются для линейной регрессии в условиях глубокого...

12
Keras: почему убыток уменьшается, а val_loss увеличивается?

Я настроил сетку для поиска группы параметров. Я пытаюсь найти лучшие параметры для нейронной сети Keras, которая выполняет бинарную классификацию. Выходное значение равно 1 или 0. Имеется около 200 функций. Когда я сделал поиск по сетке, я получил несколько моделей и их параметры. Лучшая модель...

12
Нейронная сеть для множественной выходной регрессии

У меня есть набор данных, содержащий 34 входных столбца и 8 выходных столбцов. Один из способов решения этой проблемы - взять 34 входа и построить индивидуальную модель регрессии для каждого выходного столбца. Мне интересно, если эта проблема может быть решена с помощью только одной модели,...

12
Мотивирующие сигмовидные выходные блоки в нейронных сетях, начиная с ненормализованных логарифмических вероятностей, линейных по

Справочная информация: я изучаю 6-ю главу «Глубокое обучение» Иана Гудфеллоу, Йошуа Бенжио и Аарона Курвилля. В разделе 6.2.2.2 (страницы 182 из 183, которые можно посмотреть здесь ) использование сигмоиды для вывода п( у= 1 | х )п(Yзнак равно1|Икс)P(y=1|x) мотивировано . Чтобы суммировать...

12
Выбор размера фильтра, шагов и т. Д. В CNN?

Я смотрел лекции CS231N из Стэнфорда и пытался обдумать некоторые проблемы в архитектуре CNN. Я пытаюсь понять, есть ли какие-то общие рекомендации по выбору размера сверточного фильтра и тому подобное, или это больше искусство, чем наука? Я понимаю, что объединение существует главным образом для...

12
Насколько значима связь между MLE и кросс-энтропией в глубоком обучении?

Я понимаю, что, учитывая набор из независимых наблюдений максимального правдоподобия оценщик (или, что эквивалентно, карта с плоской / равномерной до) , который идентифицирует параметров \ mathbf {θ} , которые производят распределение модели P_ {модель} \ слева (\, \ cdot \,; \ mathbf {θ} \ right),...

11
Могу ли я использовать ReLU в автоэнкодере в качестве функции активации?

При реализации автоэнкодера с нейронной сетью большинство людей используют сигмоид в качестве функции активации. Можем ли мы использовать ReLU вместо этого? (Поскольку ReLU не имеет ограничений на верхнюю границу, в основном это означает, что входное изображение может иметь пиксель больше 1, в...

11
Классификация с частично «неизвестными» данными

Предположим, я хочу узнать классификатор, который принимает вектор чисел в качестве входных данных и дает метку класса в качестве выходных данных. Мои тренировочные данные состоят из большого количества пар ввода-вывода. Тем не менее, когда я прихожу к тестированию на некоторых новых данных, эти...

11
Как фильтры и карты активации связаны в сверточных нейронных сетях?

Как карты активации на данном слое связаны с фильтрами для этого слоя? Я не спрашиваю о том, как выполнить сверточную операцию между фильтром и картой активации, я спрашиваю о типе связи, которую имеют эти два. Например, скажем, вы хотели сделать полную связь. У вас есть f количество фильтров и n...

11
Какую функцию потери я должен использовать для двоичного обнаружения в обнаружении лица / не лица в CNN?

Я хочу использовать глубокое обучение для обучения двоичному обнаружению лица / лица, какую потерю я должен использовать, я думаю, что это SigmoidCrossEntropyLoss или Hinge-loss . Это правильно, но мне также интересно, должен ли я использовать softmax, но только с двумя...

11
Как модель скип-граммы Word2Vec генерирует выходные векторы?

У меня проблемы с пониманием скип-грамматической модели алгоритма Word2Vec. В непрерывном пакете слов легко увидеть, как контекстные слова могут «вписаться» в нейронную сеть, поскольку вы в основном усредняете их после умножения каждого из представлений кодирования с одним горячим кодированием на...

11
Связаны ли остаточные сети с повышением градиента?

Недавно мы увидели появление остаточной нейронной сети, в которой каждый уровень состоит из вычислительного модуля и ярлыка соединения, которое сохраняет входные данные для уровня, такие как выходные данные i-го уровня: Сеть позволяет извлекать остаточные элементы и обеспечивает более глубокую...

11
Почему бы нам просто не изучить гиперпараметры?

Я реализовывал довольно популярную статью « ОБЪЯСНЕНИЕ И ПРИМЕНЕНИЕ ОБОБЩЕННЫХ ПРИМЕРОВ », и в статье она обучает противоборствующей целевой функции. J '' (θ) = αJ (θ) + (1 - α) J '(θ). Он рассматривает α как гиперпараметр. α может быть 0,1, 0,2, 0,3 и т. д. Независимо от этой конкретной статьи,...

11
Вывод без правдоподобия - что это значит?

Недавно я узнал о методах «без правдоподобия», которые обсуждаются в литературе. Однако мне не ясно, что означает, что метод логического вывода или метод оптимизации не имеют правдоподобия . В машинном обучении цель обычно состоит в том, чтобы максимизировать вероятность того, что некоторые...