Вопросы с тегом «classification»

13
С помощью пакета каретки можно ли получить матрицы путаницы для конкретных пороговых значений?

Я получил модель логистической регрессии (через train) для бинарного ответа, и я получил логистическую матрицу спутанности через confusionMatrixв caret. Это дает мне путаницу в логистической модели, хотя я не уверен, какой порог используется для ее получения. Как получить матрицу путаницы для...

12
Наименование средней абсолютной ошибки, аналогичной шкале Бриера?

Вчерашний вопрос « Определить точность модели, которая оценивает вероятность события» , заинтересовал меня оценкой вероятности. Оценка Бриера - это мера среднего квадрата ошибки. Показывает ли аналогичная средняя абсолютная погрешность показатели эффективности есть имя тоже?11NΣя = 1N( Р г е дя с т...

12
Прогнозирование нескольких целей или классов?

Предположим, я строю прогностическую модель, в которой я пытаюсь предсказать несколько событий (например, бросок кубика и бросок монеты). Большинство известных мне алгоритмов работают только с одной целью, поэтому мне интересно, существует ли стандартный подход к такого рода вещам. Я вижу два...

12
Влияет ли разреженный тренировочный комплекс на SVM?

Я пытаюсь классифицировать сообщения по различным категориям, используя SVM. Я составил список желаемых слов / символов из учебного набора. Для каждого вектора, который представляет сообщение, я устанавливаю соответствующую строку, 1если слово присутствует: "корпус" это: [Мария, маленькая, ягненок,...

12
Применение машинного обучения для фильтрации DDoS

В курсе машинного обучения Стэнфорда Эндрю Нг упомянул применение ML в IT. Некоторое время спустя, когда я получил DDoS умеренного размера (около 20 тыс. Ботов) на нашем сайте, я решил бороться с ним, используя простой классификатор Neural Network. Я написал этот скрипт на python примерно за 30...

12
Линейный дискриминантный анализ и правило Байеса: классификация

Какова связь между линейным дискриминантным анализом и правилом Байеса? Я понимаю, что LDA используется в классификации, пытаясь минимизировать соотношение внутри групповой дисперсии и между групповой дисперсией, но я не знаю, как в ней используется правило...

12
Спс и случайные леса

Для недавнего соревнования Kaggle я (вручную) определил 10 дополнительных функций для своего тренировочного набора, которые затем будут использоваться для обучения классификатора случайных лесов. Я решил запустить PCA в наборе данных с новыми функциями, чтобы увидеть, как они сравниваются друг с...

12
Взаимосвязь между количеством векторов поддержки и количеством функций

Я запустил SVM для данного набора данных и сделал следующее наблюдение: если я изменю количество функций для построения классификатора, число результирующих векторов поддержки также будет изменено. Я хотел бы знать, как объяснить такой...

12
Стратифицированная классификация со случайными лесами (или другой классификатор)

Итак, у меня есть матрица размером около 60 x 1000. Я рассматриваю ее как 60 объектов с 1000 объектов; 60 объектов сгруппированы в 3 класса (a, b, c). 20 предметов в каждом классе, и мы знаем истинную классификацию. Я хотел бы провести обучение под наблюдением на этом наборе из 60 обучающих...

12
Почему увеличение количества функций снижает производительность?

Я пытаюсь понять, почему увеличение количества функций может снизить производительность. В настоящее время я использую классификатор LDA, который работает лучше в двух вариантах среди определенных функций, но хуже, когда смотрю на другие функции. Моя точность классификации выполняется с...

12
Почему n-грамм используется в идентификации текста вместо слов?

В двух популярных библиотеках идентификации языка, Compact Language Detector 2 для C ++ и Language Detector для Java, обе они использовали (на основе символов) n-граммы для извлечения текстовых функций. Почему пакет слов (одно слово / словарь) не используется, и каковы преимущества и недостатки...

12
Наивные байесовские характеристики вероятности: я должен дважды считать слова?

Я создаю прототип своей собственной модели Naive Bayes bag o 'words, и у меня возник вопрос о вычислении вероятностей характеристик. Допустим, у меня есть два класса, я просто буду использовать спам, а не спам, поскольку это то, что все используют. И давайте возьмем слово «виагра» в качестве...

12
Как уменьшить количество ложных срабатываний?

Я пытаюсь решить задачу, которая называется « Обнаружение пешеходов», и я тренирую двоичный класс по двум категориям: позитивные - люди, негативные - фон. У меня есть набор данных: количество позитивов = 3752 число отрицательных = 3800 Я использую train \ test split 80 \ 20% и форму scikit-learn...

12
Как построить путаницу для мультиклассового классификатора?

У меня проблема с 6 классами. Поэтому я строю мультиклассовый классификатор следующим образом: для каждого класса у меня есть один классификатор логистической регрессии, использующий один против всех, что означает, что у меня есть 6 различных классификаторов. Я могу сообщить матрицу путаницы для...

12
Обнаружение выброса в очень маленьких наборах

Мне нужно получить как можно более точное значение яркости в основном стабильного источника света, учитывая двенадцать значений яркости образца. Датчик неидеален, и свет может иногда «мерцать» ярче или темнее, что можно игнорировать, отсюда моя потребность в обнаружении выбросов (я думаю?). Я...

12
Почему важен размер ВК?

Википедия говорит, что: Измерение VC - это мощность наибольшего множества точек, которые алгоритм может разрушить. Например, линейный классификатор имеет мощность n + 1. Мой вопрос, почему мы заботимся? Большинство наборов данных, по которым вы выполняете линейную классификацию, имеют тенденцию...

12
оптимизация auc против logloss в задачах двоичной классификации

Я выполняю задачу бинарной классификации, где вероятность исхода довольно низкая (около 3%). Я пытаюсь решить, следует ли оптимизировать AUC или потерю журнала. Насколько я понял, AUC максимизирует способность модели различать классы, в то время как потери в журнале штрафуют расхождение между...

12
Как я могу обучить HMM для классификации?

Итак, я понимаю, что когда вы готовите HMM для классификации, стандартный подход: Разделите ваши наборы данных на наборы данных для каждого класса Тренируйте один HMM в классе На тестовом наборе сравните вероятность каждой модели для классификации каждого окна Но как мне тренировать HMM в каждом...