Вопросы с тегом «classification»

12
Как выполнить вменение значений в очень большом количестве точек данных?

У меня очень большой набор данных и около 5% случайных значений отсутствуют. Эти переменные связаны друг с другом. В следующем примере набор данных R - просто игрушечный пример с фиктивными коррелированными данными. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000,...

12
Как рассчитать вес критерия Фишера?

Я изучаю распознавание образов и машинное обучение, и я столкнулся со следующим вопросом. Рассмотрим задачу классификации двух классов с равной вероятностью предшествующего класса P(D1)=P(D2)=12P(D1)=P(D2)=12P(D_1)=P(D_2)= \frac{1}{2} и распределение экземпляров в каждом классе, заданное...

12
Почему n-грамм используется в идентификации текста вместо слов?

В двух популярных библиотеках идентификации языка, Compact Language Detector 2 для C ++ и Language Detector для Java, обе они использовали (на основе символов) n-граммы для извлечения текстовых функций. Почему пакет слов (одно слово / словарь) не используется, и каковы преимущества и недостатки...

12
Как уменьшить количество ложных срабатываний?

Я пытаюсь решить задачу, которая называется « Обнаружение пешеходов», и я тренирую двоичный класс по двум категориям: позитивные - люди, негативные - фон. У меня есть набор данных: количество позитивов = 3752 число отрицательных = 3800 Я использую train \ test split 80 \ 20% и форму scikit-learn...

11
Как понять сверточную сеть глубокого убеждения для классификации аудио?

В « Сверточных сетях глубокого убеждения для масштабируемого обучения без надзора иерархических представлений » Ли и соавт. др. ( PDF ) Предложены сверточные ДБН. Также метод оценивается для классификации изображений. Это звучит логично, поскольку существуют естественные локальные особенности...

11
Сокращение количества уровней неупорядоченной категориальной предикторной переменной

Я хочу обучить классификатор, скажем SVM, или случайный лес, или любой другой классификатор. Одной из функций в наборе данных является категориальная переменная с 1000 уровнями. Каков наилучший способ уменьшить количество уровней в этой переменной. В R есть функция, называемая combine.levels()в...

11
Существуют ли какие-либо библиотеки для CART-подобных методов, использующих разреженные предикторы и ответы?

Я работаю с некоторыми большими наборами данных, используя пакет gbm в R. И моя матрица предикторов, и мой вектор ответов довольно редки (то есть большинство записей равно нулю). Я надеялся построить деревья решений, используя алгоритм, который использует преимущества этой редкости, как это было...

11
Организация дерева классификации (в rpart) в набор правил?

Существует ли способ построения сложного дерева классификации с использованием rpart (в R) для организации правил принятия решений, создаваемых для каждого класса? Таким образом, вместо того, чтобы получить одно огромное дерево, мы получаем набор правил для каждого из классов? (если так, то как?)...

11
Распространение 2-классовых моделей на мультиклассовые задачи

В этой статье об Adaboost приведены некоторые предложения и код (стр. 17) для расширения моделей с 2 ​​классами до задач класса K. Я хотел бы обобщить этот код так, чтобы я мог легко подключить различные 2-классовые модели и сравнить результаты. Поскольку большинство моделей классификации имеют...

11
Можно ли получить лучший ANN, удалив некоторые соединения?

Мне было интересно, могут ли при некоторых обстоятельствах ANN работать лучше, если вы удалите некоторые соединения на них, например: Построение одной сети ANN путем параллельного подключения двух многослойных сетей ANN A и B (одинаковые входные и выходные узлы) с добавлением нескольких...

11
Оценка классификаторов: кривые обучения против кривых ROC

Я хотел бы сравнить 2 разных классификатора для задачи классификации текстов с несколькими классами, которые используют большие обучающие наборы данных. Я сомневаюсь, должен ли я использовать кривые ROC или кривые обучения, чтобы сравнить 2 классификатора. С одной стороны, кривые обучения полезны...

11
Меры разделимости классов в задачах классификации

Примером хорошей меры отделимости классов у учащихся с линейным дискриминантом является коэффициент линейного дискриминанта Фишера. Существуют ли другие полезные метрики, чтобы определить, обеспечивают ли наборы функций хорошее разделение классов между целевыми переменными? В частности, я...

11
Важность переменных в логистической регрессии

Я, вероятно, имею дело с проблемой, которая, вероятно, была решена сто раз прежде, но я не уверен, где найти ответ. При использовании логистической регрессии, учитывая многие функции и пытаясь предсказать двоичное категориальное значение y , я заинтересован в выборе подмножества признаков, которые...

11
Почему Байесовский классификатор идеальный классификатор?

Считается идеальным случаем, когда структура вероятности, лежащая в основе категорий, известна полностью. Почему с помощью байесовского классификатора мы достигаем наилучшей производительности, которая может быть достигнута? Что является формальным доказательством / объяснением этого? Как мы всегда...

11
Почему Adaboost с деревьями решений?

Я немного читал об улучшении алгоритмов для задач классификации и Adaboost в частности. Я понимаю, что цель Adaboost состоит в том, чтобы взять нескольких «слабых учеников» и, через набор итераций по обучающим данным, подтолкнуть классификаторы к тому, чтобы научиться предсказывать классы, в...

11
Когда использовать примеси Джини, а когда использовать получение информации?

Может кто-нибудь объяснить мне, когда использовать примеси Джини и информацию для деревьев решений? Можете ли вы дать мне ситуации / примеры того, когда лучше всего использовать...

11
Является ли AUC вероятностью правильной классификации случайно выбранного экземпляра из каждого класса?

Я прочитал эту подпись в газете и никогда не видел, чтобы AUC описывали таким образом где-либо еще. Это правда? Есть ли доказательство или простой способ увидеть это? На рис. 2 показана точность прогнозирования дихотомических переменных, выраженная в терминах площади под кривой рабочих...

11
Классификатор с регулируемой точностью и отзывом

Я работаю над проблемой бинарной классификации, где гораздо важнее не иметь ложных срабатываний; довольно много ложных негативов в порядке. Например, я использовал несколько классификаторов в sklearn, но я думаю, что ни один из них не имеет возможности явно регулировать компромисс между точностью и...

11
порог расчета для минимального классификатора риска?

Предположим, что два класса и имеют атрибут и имеют распределение и . если мы имеем равный для следующей матрицы затрат:C1C1C_1C2C2C_2xxxN(0,0.5)N(0,0.5) \cal{N} (0, 0.5)N(1,0.5)N(1,0.5) \cal{N} (1, 0.5)P(C1)=P(C2)=0.5P(C1)=P(C2)=0.5P(C_1)=P(C_2)=0.5 L=[010.50]L=[00.510]L= \begin{bmatrix} 0 & 0.5...

11
Как использовать пень принятия решения как слабый ученик в Adaboost?

Я хочу реализовать Adaboost с помощью Decision Stump. Правильно ли принимать столько решений, сколько функций нашего набора данных в каждой итерации Adaboost? Например, если у меня есть набор данных с 24 функциями, должен ли я иметь 24 классификатора решения для каждой итерации? Или я должен...