Вопросы с тегом «machine-learning»

18

Глубокое обучение против деревьев решений и методов повышения

Я ищу статьи или тексты, которые сравнивают и обсуждают (эмпирически или теоретически): Алгоритмы деревьев повышения и принятия решений , такие как Random Forests или AdaBoost , и GentleBoost, применяются к деревьям решений. с Методы глубокого обучения, такие как ограниченные машины Больцмана ,...

18

Масштабная классификация текста

Я хочу сделать классификацию на мои текстовые данные. У меня есть 300 classes200 учебных документов на класс (так 60000 documents in total), и это, вероятно, приведет к очень большим размерам данных (возможно, мы просматриваем более 1 миллиона измерений ). Я хотел бы выполнить следующие шаги в...

machine-learning classification text-mining

18

Почему классификатор регрессии гребня работает достаточно хорошо для классификации текста?

Во время эксперимента по классификации текста я обнаружил, что классификатор гребней генерирует результаты, которые постоянно превосходят тесты среди тех классификаторов, которые чаще упоминаются и применяются для задач интеллектуального анализа текста, таких как SVM, NB, kNN и т. Д. Хотя я не...

machine-learning classification text-mining ridge-regression

18

Лучший способ выполнить мультикласс SVM

Я знаю, что SVM - это двоичный классификатор. Я хотел бы расширить его до мультикласса SVM. Какой самый лучший и, возможно, самый простой способ это сделать? код: в MATLAB u=unique(TrainLabel); N=length(u); if(N>2) itr=1; classes=0; while((classes~=1)&&(itr<=length(u)))...

machine-learning matlab svm multi-class

18

Как линейный дискриминантный анализ уменьшает размеры?

Есть слова из «Элементы статистического обучения» на странице 91: K-центроиды в p-мерном входном пространстве охватывают самое большее K-1-мерное подпространство, и если p намного больше K, это приведет к значительному уменьшению размера. У меня есть два вопроса: Почему K-центроиды в p-мерном...

machine-learning discriminant-analysis

18

Почему обработка естественного языка не входит в область машинного обучения? [закрыто]

В настоящее время этот вопрос не очень подходит для нашего формата вопросов и ответов. Мы ожидаем, что ответы будут подтверждены фактами, ссылками или опытом, но этот вопрос, скорее всего, вызовет дебаты, споры, опрос или расширенное обсуждение. Если вы считаете, что этот вопрос можно улучшить и,...

machine-learning text-mining natural-language

18

Преимущества и недостатки СВМ

Может кто-нибудь объяснить мне преимущества и недостатки классификации SVM, которая отличает ее от других

machine-learning svm

18

Является ли построение мультиклассового классификатора лучше, чем несколько бинарных?

Мне нужно классифицировать URL-адреса по категориям. Скажем, у меня есть 15 категорий, к которым я планирую обнулить каждый URL. Классификатор с 15 путями лучше? Где у меня есть 15 меток и генерировать функции для каждой точки данных. Или построить 15 бинарных классификаторов, скажем: Movie или...

machine-learning classification categorical-data svm feature-selection

18

Чем экстремальный случайный лес отличается от случайного леса?

Является ли ER более эффективной реализацией (что-то вроде Extreme Gradient Boostingповышения градиента) - важно ли различие с практической точки зрения? Существует пакет R, который их реализует. Это новый алгоритм, который преодолевает «универсальную» реализацию (пакет RandomForest от R) не только...

r machine-learning algorithms random-forest

18

Обнаружение аномалий с фиктивными характеристиками (и другими дискретными / категориальными характеристиками)

ТЛ; др Каков рекомендуемый способ обработки discreteданных при обнаружении аномалий? Каков рекомендуемый способ обработки categoricalданных при обнаружении аномалий? Этот ответ предлагает использовать дискретные данные для фильтрации результатов. Возможно, замените значение категории шансом...

machine-learning categorical-data outliers discrete-data anomaly-detection

18

Почему оптимизация смеси гауссов напрямую в вычислительном отношении трудна?

Рассмотрим логарифмическую вероятность смешения гауссиан: л ( сN; θ ) = ∑т = 1Nжурнале( х( т )| θ)= ∑т = 1Nжурнал{ ∑я = 1Кпяе( х( т )| μ( я ), σ2я) }L(SN;θ)знак равноΣTзнак равно1Nжурнал⁡е(Икс(T)|θ)знак равноΣTзнак равно1Nжурнал⁡{Σязнак равно1Кпяе(Икс(T)|μ(я),σя2)}l(S_n; \theta) = \sum^n_{t=1}\log...

machine-learning gaussian-mixture expectation-maximization

18

Скрытая марковская модель против модели перехода Маркова против модели состояния пространства…?

Для моей магистерской работы я работаю над разработкой статистической модели для переходов между различными состояниями, определяемыми серологическим статусом. Пока я не буду вдаваться в подробности этого контекста, так как мой вопрос носит более общий / теоретический характер. Во всяком случае,...

machine-learning self-study hidden-markov-model

18

Почему статистика разрыва для k-средних предполагает один кластер, хотя, очевидно, их два?

Я использую K-средства для кластеризации своих данных и искал способ предложить «оптимальный» номер кластера. Статистика зазоров, кажется, является распространенным способом найти хороший номер кластера. По некоторым причинам он возвращает 1 в качестве оптимального номера кластера, но когда я...

r machine-learning clustering k-means

18

Как сообщается матрица путаницы из K-кратной перекрестной проверки?

Предположим, я делаю перекрестную проверку в K-кратном порядке с K = 10-кратным. Там будет одна матрица путаницы для каждого сгиба. Когда я сообщаю о результатах, я должен вычислить, какова средняя матрица путаницы, или просто суммировать матрицы...

machine-learning cross-validation accuracy

18

Почему разделение данных на набор для обучения и тестирования недостаточно

Я знаю, что для того, чтобы получить доступ к характеристикам классификатора, мне нужно разделить данные на обучающие / тестовые наборы. Но читая это : При оценке различных настроек («гиперпараметров») для оценщиков, таких как настройки C, которые должны быть установлены вручную для SVM, все еще...

machine-learning cross-validation

18

Скорость, вычислительные затраты PCA, LASSO, эластичная сеть

Я пытаюсь сравнить сложность вычислений / скорость оценки трех групп методов для линейной регрессии, как это различается в Hastie et al. «Элементы статистического обучения» (2-е изд.), Глава 3: Выбор подмножества Методы усадки Методы с использованием производных направлений ввода (PCR, PLS)...

machine-learning estimation feature-selection algorithms time-complexity

18

Действительно ли мы проводим многомерный регрессионный анализ с * миллионами * коэффициентов / независимых переменных?

Я провожу некоторое время, изучая машинное обучение (извините за рекурсию :), и я не мог не заинтриговать эмпирическое правило выбора градиентного спуска вместо прямого решения уравнений для вычисления коэффициентов регрессии, в случае многомерной линейной регрессии. 10 , 000 - 1 , 000 ,...

machine-learning multiple-regression large-data

18

как сделать функцию вознаграждения в обучении подкрепления

Изучая обучение подкреплению, я сталкивался со многими формами функции вознаграждения: , и даже с функцией вознаграждения, которая зависит только от текущего состояния. Сказав это, я понял, что не очень легко «сделать» или «определить» функцию вознаграждения.R ( s , a )р(s,a)R(s,a)R ( s , a ,...

machine-learning reinforcement-learning

18

Мнения о передискретизации в целом и алгоритме SMOTE в частности [закрыто]

Закрыто . Этот вопрос основан на мнении . В настоящее время не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы ответить на него фактами и цитатами, отредактировав этот пост . Закрыто 2 года назад . Что вы думаете о передискретизации в классификации в целом и алгоритме SMOTE в...

machine-learning classification oversampling

18

Следует ли рисовать обучающие образцы, выбранные случайным образом для мини-пакетных нейронных сетей, без замены?

Мы определяем эпоху как пройденную через все доступные обучающие выборки, а размер мини-пакета как число выборок, по которым мы усредняем, чтобы найти обновления весов / смещений, необходимые для снижения градиента. Мой вопрос заключается в том, следует ли нам рисовать без замены из набора...

machine-learning neural-networks optimization deep-learning