Вопросы с тегом «classification»

13

С помощью пакета каретки можно ли получить матрицы путаницы для конкретных пороговых значений?

Я получил модель логистической регрессии (через train) для бинарного ответа, и я получил логистическую матрицу спутанности через confusionMatrixв caret. Это дает мне путаницу в логистической модели, хотя я не уверен, какой порог используется для ее получения. Как получить матрицу путаницы для...

12

Какая функция стоимости лучше для случайного лесного дерева: индекс Джини или энтропия?

Какая функция стоимости лучше для случайного лесного дерева: индекс Джини или энтропия? Я пытаюсь реализовать случайный лес в

classification random-forest cart

12

Наименование средней абсолютной ошибки, аналогичной шкале Бриера?

Вчерашний вопрос « Определить точность модели, которая оценивает вероятность события» , заинтересовал меня оценкой вероятности. Оценка Бриера - это мера среднего квадрата ошибки. Показывает ли аналогичная средняя абсолютная погрешность показатели эффективности есть имя тоже?11NΣя = 1N( Р г е дя с т...

classification error validation scoring-rules brier-score

12

Прогнозирование нескольких целей или классов?

Предположим, я строю прогностическую модель, в которой я пытаюсь предсказать несколько событий (например, бросок кубика и бросок монеты). Большинство известных мне алгоритмов работают только с одной целью, поэтому мне интересно, существует ли стандартный подход к такого рода вещам. Я вижу два...

machine-learning classification predictive-models multi-class

12

Влияет ли разреженный тренировочный комплекс на SVM?

Я пытаюсь классифицировать сообщения по различным категориям, используя SVM. Я составил список желаемых слов / символов из учебного набора. Для каждого вектора, который представляет сообщение, я устанавливаю соответствующую строку, 1если слово присутствует: "корпус" это: [Мария, маленькая, ягненок,...

classification svm sparse

12

Применение машинного обучения для фильтрации DDoS

В курсе машинного обучения Стэнфорда Эндрю Нг упомянул применение ML в IT. Некоторое время спустя, когда я получил DDoS умеренного размера (около 20 тыс. Ботов) на нашем сайте, я решил бороться с ним, используя простой классификатор Neural Network. Я написал этот скрипт на python примерно за 30...

classification neural-networks unsupervised-learning

12

Линейный дискриминантный анализ и правило Байеса: классификация

Какова связь между линейным дискриминантным анализом и правилом Байеса? Я понимаю, что LDA используется в классификации, пытаясь минимизировать соотношение внутри групповой дисперсии и между групповой дисперсией, но я не знаю, как в ней используется правило...

classification discriminant-analysis bayes

12

Спс и случайные леса

Для недавнего соревнования Kaggle я (вручную) определил 10 дополнительных функций для своего тренировочного набора, которые затем будут использоваться для обучения классификатора случайных лесов. Я решил запустить PCA в наборе данных с новыми функциями, чтобы увидеть, как они сравниваются друг с...

classification pca random-forest

12

Взаимосвязь между количеством векторов поддержки и количеством функций

Я запустил SVM для данного набора данных и сделал следующее наблюдение: если я изменю количество функций для построения классификатора, число результирующих векторов поддержки также будет изменено. Я хотел бы знать, как объяснить такой...

machine-learning classification svm kernel-trick

12

Стратифицированная классификация со случайными лесами (или другой классификатор)

Итак, у меня есть матрица размером около 60 x 1000. Я рассматриваю ее как 60 объектов с 1000 объектов; 60 объектов сгруппированы в 3 класса (a, b, c). 20 предметов в каждом классе, и мы знаем истинную классификацию. Я хотел бы провести обучение под наблюдением на этом наборе из 60 обучающих...

machine-learning classification multilevel-analysis random-forest stratification

12

Почему увеличение количества функций снижает производительность?

Я пытаюсь понять, почему увеличение количества функций может снизить производительность. В настоящее время я использую классификатор LDA, который работает лучше в двух вариантах среди определенных функций, но хуже, когда смотрю на другие функции. Моя точность классификации выполняется с...

classification feature-selection

12

Почему n-грамм используется в идентификации текста вместо слов?

В двух популярных библиотеках идентификации языка, Compact Language Detector 2 для C ++ и Language Detector для Java, обе они использовали (на основе символов) n-граммы для извлечения текстовых функций. Почему пакет слов (одно слово / словарь) не используется, и каковы преимущества и недостатки...

machine-learning classification text-mining natural-language

12

Наивные байесовские характеристики вероятности: я должен дважды считать слова?

Я создаю прототип своей собственной модели Naive Bayes bag o 'words, и у меня возник вопрос о вычислении вероятностей характеристик. Допустим, у меня есть два класса, я просто буду использовать спам, а не спам, поскольку это то, что все используют. И давайте возьмем слово «виагра» в качестве...

classification conditional-probability naive-bayes

12

Как уменьшить количество ложных срабатываний?

Я пытаюсь решить задачу, которая называется « Обнаружение пешеходов», и я тренирую двоичный класс по двум категориям: позитивные - люди, негативные - фон. У меня есть набор данных: количество позитивов = 3752 число отрицательных = 3800 Я использую train \ test split 80 \ 20% и форму scikit-learn...

classification random-forest unbalanced-classes precision-recall computer-vision

12

Как построить путаницу для мультиклассового классификатора?

У меня проблема с 6 классами. Поэтому я строю мультиклассовый классификатор следующим образом: для каждого класса у меня есть один классификатор логистической регрессии, использующий один против всех, что означает, что у меня есть 6 различных классификаторов. Я могу сообщить матрицу путаницы для...

machine-learning logistic classification multi-class confusion-matrix

12

Что такое классификатор?

Я не могу найти общее определение того, что такое классификатор? Я понимаю, как это может работать, но я не могу прийти к

machine-learning classification

12

Обнаружение выброса в очень маленьких наборах

Мне нужно получить как можно более точное значение яркости в основном стабильного источника света, учитывая двенадцать значений яркости образца. Датчик неидеален, и свет может иногда «мерцать» ярче или темнее, что можно игнорировать, отсюда моя потребность в обнаружении выбросов (я думаю?). Я...

classification outliers algorithms

12

Почему важен размер ВК?

Википедия говорит, что: Измерение VC - это мощность наибольшего множества точек, которые алгоритм может разрушить. Например, линейный классификатор имеет мощность n + 1. Мой вопрос, почему мы заботимся? Большинство наборов данных, по которым вы выполняете линейную классификацию, имеют тенденцию...

classification algorithms vc-dimension

12

оптимизация auc против logloss в задачах двоичной классификации

Я выполняю задачу бинарной классификации, где вероятность исхода довольно низкая (около 3%). Я пытаюсь решить, следует ли оптимизировать AUC или потерю журнала. Насколько я понял, AUC максимизирует способность модели различать классы, в то время как потери в журнале штрафуют расхождение между...

classification binary-data auc log-loss

12

Как я могу обучить HMM для классификации?

Итак, я понимаю, что когда вы готовите HMM для классификации, стандартный подход: Разделите ваши наборы данных на наборы данных для каждого класса Тренируйте один HMM в классе На тестовом наборе сравните вероятность каждой модели для классификации каждого окна Но как мне тренировать HMM в каждом...

classification hidden-markov-model