Вопросы с тегом «machine-learning»

9
Каковы различия между фильтрами, изученными в автоэнкодере и сверточной нейронной сети?

В CNN мы изучим фильтры для создания карты объектов в сверточном слое. В Autoencoder каждый скрытый элемент каждого слоя может рассматриваться как фильтр. Какая разница между фильтрами, изученными в этих двух...

9
Улавливают ли деревья CART взаимодействия между предикторами?

В этой статье утверждается, что в CART, поскольку двоичное разбиение выполняется в одной ковариате на каждом шаге, все разбиения являются ортогональными и, следовательно, взаимодействия между ковариатами не рассматриваются. Тем не менее, многие очень серьезные ссылки утверждают, напротив, что...

9
Как найти и оценить оптимальную дискретизацию для непрерывной переменной с критерием

У меня есть набор данных с непрерывной переменной и двоичной целевой переменной (0 и 1). Мне нужно дискретизировать непрерывные переменные (для логистической регрессии) по отношению к целевой переменной и с ограничением, что частота наблюдений в каждом интервале должна быть сбалансирована. Я...

9
Оценка ошибки из пакета для повышения?

В Случайном Лесу каждое дерево растет параллельно на уникальной выборке данных Boostrap. Поскольку ожидается, что каждая выборка бустрапа будет содержать около 63% уникальных наблюдений, это оставляет примерно 37% наблюдений, которые можно использовать для тестирования дерева. Теперь, кажется , что...

9
Согласование деревьев ускоренной регрессии (BRT), обобщенных расширенных моделей (GBM) и машины повышения градиента (GBM)

Вопросов: В чем разница (ы) между деревьями регрессионного усиления (BRT) и обобщенными моделями (GBM)? Могут ли они быть взаимозаменяемыми? Является ли одна конкретная форма другой? Почему Риджуэй использовал фразу «Обобщенные модели ускоренной регрессии» (GBM), чтобы описать то, что Фридман ранее...

9
При использовании SVM зачем мне масштабировать функции?

Согласно документации объекта StandardScaler в scikit-learn: Например, многие элементы, используемые в целевой функции алгоритма обучения (например, ядро ​​RBF машин опорных векторов или регуляризаторы L1 и L2 линейных моделей), предполагают, что все объекты сосредоточены вокруг 0 ​​и имеют...

9
Невозможно заставить эту сеть автоэнкодера функционировать должным образом (со сверточным и максимальным уровнями)

Автоэнкодерные сети кажутся более хитрыми, чем обычные классификаторы MLP сетей. После нескольких попыток использования лазаньи все, что я получаю в восстановленном выводе, в чем-то напоминает размытое усреднение всех изображений базы данных MNIST без различия того, что представляет собой входная...

9
Почему проксимальный градиентный спуск вместо простых субградиентных методов для Лассо?

Я думал решить Лассо с помощью ванильных субградиентных методов. Но я читал людей, предлагающих использовать проксимальный градиентный спуск. Может ли кто-нибудь подчеркнуть, почему для лассо используются проксимальный GD вместо ванильных субградиентных...

9
Являются ли контуры интересными особенностями функции полученной регрессией?

Я предполагаю общую установку регрессии, то есть непрерывную функцию выбирают из семейства чтобы соответствовать заданным данным ( может быть любым пространством, таким как куб или фактически любым разумным топологическим пространством) в соответствии с некоторыми естественными...

9
Узкое место применения глубокого обучения на практике

После прочтения большого количества документов для глубокого изучения возникает некое ощущение, что существует множество хитростей в обучении сети, чтобы получить лучшую, чем обычно, производительность. С точки зрения отраслевых приложений очень трудно разрабатывать подобные приемы, за исключением...

9
Нормализация входа для нейронов ReLU

Согласно «Эффективному Backprop» ЛеКуна и др. (1998), хорошей практикой является нормализация всех входных данных таким образом, чтобы они центрировались вокруг 0 ​​и лежали в диапазоне максимальной второй производной. Так, например, мы бы использовали [-0,5,0,5] для функции «Тан». Это должно...

9
Прогнозирование доверия нейронной сети

Предположим, я хочу обучить глубокую нейронную сеть выполнять классификацию или регрессию, но я хочу знать, насколько достоверным будет прогноз. Как я мог этого добиться? Моя идея состоит в том, чтобы вычислить кросс-энтропию для каждого тренировочного материала, основываясь на его прогнозирующей...

9
Сколько данных для глубокого изучения?

Я изучаю глубокое обучение (особенно CNN) и то, как обычно требуется очень много данных для предотвращения переобучения. Однако мне также сказали, что чем больше емкость / больше параметров в модели, тем больше данных требуется для предотвращения переобучения. Поэтому мой вопрос: почему вы не...

9
Насколько эффективно Q-learning с нейронными сетями, когда на одно действие приходится одна единица вывода?

Справочная информация: я использую приближение Q-значения нейронной сети в моей задаче обучения подкрепления. Подход точно такой же, как описанный в этом вопросе , однако сам вопрос другой. В этом подходе количество выходов - это количество действий, которые мы можем предпринять. Иными словами,...

9
Как линейный базовый ученик работает в повышении? И как это работает в библиотеке xgboost?

Я знаю, как реализовать линейную целевую функцию и линейные усиления в XGBoost. Мой конкретный вопрос: когда алгоритм соответствует остаточному (или отрицательному градиенту), использует ли он один элемент на каждом шаге (т.е. одномерную модель) или все признаки (многомерная модель)? Будем...

9
Я хотел бы изучить теорию вероятностей, теорию мер и, наконец, машинное обучение. С чего мне начать? [закрыто]

Закрыто . Этот вопрос должен быть более сфокусированным . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он был сосредоточен только на одной проблеме, отредактировав этот пост . Закрыто 3 года назад . Я хотел бы изучить теорию вероятностей, теорию мер...

9
Может кто-нибудь объяснить, как мне 5 лет, об этой проблеме из Книги ESL Хасти?

Я работаю над книгой Хэсти по ESL, и мне тяжело с вопросом 2.3. Вопрос в следующем: Мы рассматриваем оценку ближайшего соседа в начале координат, и среднее расстояние от начала координат до ближайшей точки данных задается этим уравнением. Я понятия не имею, с чего начать, пытаясь вывести это. Я...

9
Должны ли мы всегда делать резюме?

Мой вопрос: должен ли я делать резюме даже для относительно большого набора данных? У меня относительно большой набор данных, и я буду применять алгоритм машинного обучения для набора данных. Так как мой компьютер не быстрый, CV (и поиск по сетке) иногда занимает слишком много времени. В частности,...

9
На самом деле это нормально, чтобы выполнить неконтролируемый выбор функции перед перекрестной проверкой?

В «Элементах статистического обучения» я нашел следующее утверждение: Существует одна квалификация: начальные неконтролируемые этапы скрининга могут быть выполнены до того, как образцы будут опущены. Например, мы могли бы выбрать 1000 предикторов с наибольшей дисперсией во всех 50 выборках перед...

9
Применение стохастического вариационного вывода к байесовской смеси Гаусса

Я пытаюсь реализовать модель гауссовой смеси со стохастическим вариационным выводом, следуя этой статье . Это программа гауссовой смеси. Согласно статье, полный алгоритм стохастического вариационного вывода: И я все еще очень запутался в методе масштабирования до GMM. Во-первых, я думал, что...