Можно ли иметь отрицательные веса (после достаточного количества эпох) для глубоких сверточных нейронных сетей, когда мы используем ReLU для всех уровней
Можно ли иметь отрицательные веса (после достаточного количества эпох) для глубоких сверточных нейронных сетей, когда мы используем ReLU для всех уровней
Я знаю, что традиционные статистические модели, такие как регрессия пропорциональных рисков Кокса и некоторые модели Каплана-Мейера, могут использоваться для прогнозирования дней до следующего возникновения события, скажем, провала и т. Д., Т. Е. Анализа выживания Вопросов Как можно использовать...
Справочная информация: Недавно я понял на более глубоком уровне важность увеличения данных при обучении сверточных нейронных сетей, увидев этот прекрасный доклад Джеффри Хинтона . Он объясняет, что сверточные нейронные сети текущего поколения не способны обобщить систему отсчета тестируемого...
Я пытаюсь обучить нейронную сеть для классификации, но у меня довольно шумные ярлыки (около 30% ярлыков ошибочны). Потеря перекрестной энтропии действительно работает, но мне было интересно, есть ли альтернативы, более эффективные в этом случае? или потеря кросс-энтропии является оптимальной? Я не...
Я хочу знать, что это такое, и чем оно отличается от ансамбля? Предположим, я хочу добиться высокой точности в классификации и сегментации для конкретной задачи, если для этого я использую разные сети, такие как CNN, RNN и т. Д., Называется ли это сквозной моделью? (архитектура?) или...
Я довольно новичок в области гауссовских процессов и того, как они применяются в машинном обучении. Я продолжаю читать и слышать о ковариационных функциях, являющихся главной привлекательностью этих методов. Так может ли кто-нибудь объяснить интуитивно, что происходит в этих ковариационных...
Мой вопрос исходит из следующего факта. Я читал посты, блоги, лекции, а также книги по машинному обучению. У меня сложилось впечатление, что специалисты по машинному обучению кажутся безразличными ко многим вещам, которые волнуют статистиков / эконометрики. В частности, практики машинного обучения...
Я читал некоторые статьи о ручном создании изображений, чтобы «обмануть» нейронную сеть (см. Ниже). Это потому, что сети моделируют только условную вероятность ? Если сеть может смоделировать общую вероятность p ( y , x ) , будут ли такие случаи происходить?р ( у| х)п(Y|Икс)p(y|x)р ( у, Х...
В качестве специфической задачи, с которой я работаю (соревнование), у меня есть следующие настройки: 21 функция (числовое на [0,1]) и двоичный выход. У меня около 100 К рядов. Настройка кажется очень шумной. Я и другие участники на какое-то время применяем генерацию признаков, и встраивание...
В документе DeepMind 2015 года об обучении глубокому подкреплению говорится, что «предыдущие попытки объединить RL с нейронными сетями в значительной степени потерпели неудачу из-за нестабильного обучения». Затем в документе перечислены некоторые причины этого, основанные на корреляции между...
У меня есть необработанные данные, которые имеют около 20 столбцов (20 функций). Десять из них являются непрерывными данными, а 10 - категориальными. Некоторые из категориальных данных могут иметь около 50 различных значений (штаты США). После предварительной обработки данных 10 непрерывных...
Я хотел знать, сколько машинного обучения требует оптимизации. Из того, что я слышал, статистика - важная математическая тема для людей, работающих с машинным обучением. Точно так же, насколько важно для человека, работающего с машинным обучением, узнать о выпуклой или невыпуклой...
Наивный байесовский классификатор - это классификатор, который назначает элементы xxx классу CCC на основе максимизации апостериорного P(C|x)P(C|x)P(C|x) для членства в классе и предполагает, что характеристики элементов независимы. Потеря 0-1 - это потеря, которая присваивает любой ошибочной...
Когда люди говорят о нейронных сетях, что они имеют в виду, когда говорят «размер ядра»? Ядра являются функциями подобия, но что это говорит о размере
Одна общая мера, используемая для сравнения двух или более классификационных моделей, заключается в использовании площади под кривой ROC (AUC) в качестве способа косвенной оценки их эффективности. В этом случае модель с большим AUC обычно интерпретируется как работающая лучше, чем модель с меньшим...
Имея ограниченные знания о SVM, он подходит для короткой и полной матрицы данных (много функций и не слишком много экземпляров), но не для больших данных.ИксXX Я понимаю, что одной из причин является то, что матрица ядра - это матрица n × n, где n - количество экземпляров в данных. Если мы скажем,...
Допустим, наш набор данных содержит 1 миллион примеров, то есть , и мы хотим использовать градиентный спуск, чтобы выполнить логистическую или линейную регрессию для этого набора данных.Икс1, … , Х106x1,…,x106x_1, \ldots, x_{10^6} Что с методом градиентного спуска делает его неэффективным?...
Если все, что вы делаете, это повторная выборка из эмпирического распределения, почему бы просто не изучить эмпирическое распределение? Например, вместо того, чтобы изучать изменчивость путем повторной выборки, почему бы просто не определить количественно изменчивость по эмпирическому...
Мой вопрос: почему случайный лес учитывает случайные подмножества объектов для разбиения на уровне узла в каждом дереве, а не на уровне дерева ? Справочная информация: это вопрос истории. Тин Кам Хо опубликовал эту статью о построении «лесов принятия решений» путем случайного выбора подмножества...
Прогнозируемые классы из (двоичной) логистической регрессии определяются с использованием порога вероятностей членства в классе, генерируемых моделью. Насколько я понимаю, обычно используется 0.5 по умолчанию. Но изменение порога изменит предсказанные классификации. Означает ли это, что порог...