В CNN мы изучим фильтры для создания карты объектов в сверточном слое. В Autoencoder каждый скрытый элемент каждого слоя может рассматриваться как фильтр. Какая разница между фильтрами, изученными в этих двух...
В CNN мы изучим фильтры для создания карты объектов в сверточном слое. В Autoencoder каждый скрытый элемент каждого слоя может рассматриваться как фильтр. Какая разница между фильтрами, изученными в этих двух...
В этой статье утверждается, что в CART, поскольку двоичное разбиение выполняется в одной ковариате на каждом шаге, все разбиения являются ортогональными и, следовательно, взаимодействия между ковариатами не рассматриваются. Тем не менее, многие очень серьезные ссылки утверждают, напротив, что...
У меня есть набор данных с непрерывной переменной и двоичной целевой переменной (0 и 1). Мне нужно дискретизировать непрерывные переменные (для логистической регрессии) по отношению к целевой переменной и с ограничением, что частота наблюдений в каждом интервале должна быть сбалансирована. Я...
В Случайном Лесу каждое дерево растет параллельно на уникальной выборке данных Boostrap. Поскольку ожидается, что каждая выборка бустрапа будет содержать около 63% уникальных наблюдений, это оставляет примерно 37% наблюдений, которые можно использовать для тестирования дерева. Теперь, кажется , что...
Вопросов: В чем разница (ы) между деревьями регрессионного усиления (BRT) и обобщенными моделями (GBM)? Могут ли они быть взаимозаменяемыми? Является ли одна конкретная форма другой? Почему Риджуэй использовал фразу «Обобщенные модели ускоренной регрессии» (GBM), чтобы описать то, что Фридман ранее...
Согласно документации объекта StandardScaler в scikit-learn: Например, многие элементы, используемые в целевой функции алгоритма обучения (например, ядро RBF машин опорных векторов или регуляризаторы L1 и L2 линейных моделей), предполагают, что все объекты сосредоточены вокруг 0 и имеют...
Автоэнкодерные сети кажутся более хитрыми, чем обычные классификаторы MLP сетей. После нескольких попыток использования лазаньи все, что я получаю в восстановленном выводе, в чем-то напоминает размытое усреднение всех изображений базы данных MNIST без различия того, что представляет собой входная...
Я думал решить Лассо с помощью ванильных субградиентных методов. Но я читал людей, предлагающих использовать проксимальный градиентный спуск. Может ли кто-нибудь подчеркнуть, почему для лассо используются проксимальный GD вместо ванильных субградиентных...
Я предполагаю общую установку регрессии, то есть непрерывную функцию выбирают из семейства чтобы соответствовать заданным данным ( может быть любым пространством, таким как куб или фактически любым разумным топологическим пространством) в соответствии с некоторыми естественными...
После прочтения большого количества документов для глубокого изучения возникает некое ощущение, что существует множество хитростей в обучении сети, чтобы получить лучшую, чем обычно, производительность. С точки зрения отраслевых приложений очень трудно разрабатывать подобные приемы, за исключением...
Согласно «Эффективному Backprop» ЛеКуна и др. (1998), хорошей практикой является нормализация всех входных данных таким образом, чтобы они центрировались вокруг 0 и лежали в диапазоне максимальной второй производной. Так, например, мы бы использовали [-0,5,0,5] для функции «Тан». Это должно...
Предположим, я хочу обучить глубокую нейронную сеть выполнять классификацию или регрессию, но я хочу знать, насколько достоверным будет прогноз. Как я мог этого добиться? Моя идея состоит в том, чтобы вычислить кросс-энтропию для каждого тренировочного материала, основываясь на его прогнозирующей...
Я изучаю глубокое обучение (особенно CNN) и то, как обычно требуется очень много данных для предотвращения переобучения. Однако мне также сказали, что чем больше емкость / больше параметров в модели, тем больше данных требуется для предотвращения переобучения. Поэтому мой вопрос: почему вы не...
Справочная информация: я использую приближение Q-значения нейронной сети в моей задаче обучения подкрепления. Подход точно такой же, как описанный в этом вопросе , однако сам вопрос другой. В этом подходе количество выходов - это количество действий, которые мы можем предпринять. Иными словами,...
Я знаю, как реализовать линейную целевую функцию и линейные усиления в XGBoost. Мой конкретный вопрос: когда алгоритм соответствует остаточному (или отрицательному градиенту), использует ли он один элемент на каждом шаге (т.е. одномерную модель) или все признаки (многомерная модель)? Будем...
Закрыто . Этот вопрос должен быть более сфокусированным . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он был сосредоточен только на одной проблеме, отредактировав этот пост . Закрыто 3 года назад . Я хотел бы изучить теорию вероятностей, теорию мер...
Я работаю над книгой Хэсти по ESL, и мне тяжело с вопросом 2.3. Вопрос в следующем: Мы рассматриваем оценку ближайшего соседа в начале координат, и среднее расстояние от начала координат до ближайшей точки данных задается этим уравнением. Я понятия не имею, с чего начать, пытаясь вывести это. Я...
Мой вопрос: должен ли я делать резюме даже для относительно большого набора данных? У меня относительно большой набор данных, и я буду применять алгоритм машинного обучения для набора данных. Так как мой компьютер не быстрый, CV (и поиск по сетке) иногда занимает слишком много времени. В частности,...
В «Элементах статистического обучения» я нашел следующее утверждение: Существует одна квалификация: начальные неконтролируемые этапы скрининга могут быть выполнены до того, как образцы будут опущены. Например, мы могли бы выбрать 1000 предикторов с наибольшей дисперсией во всех 50 выборках перед...
Я пытаюсь реализовать модель гауссовой смеси со стохастическим вариационным выводом, следуя этой статье . Это программа гауссовой смеси. Согласно статье, полный алгоритм стохастического вариационного вывода: И я все еще очень запутался в методе масштабирования до GMM. Во-первых, я думал, что...