Вопросы с тегом «classification»

10
Почему несколько типов моделей могут давать почти одинаковые результаты?

Я анализировал набор данных из ~ 400 тыс. Записей и 9 переменных. Зависимая переменная является двоичной. Я установил логистическую регрессию, дерево регрессии, случайный лес и дерево с градиентным повышением. Все они дают виртуально идентичные данные соответствия, когда я проверяю их на другом...

10
Text-Classification-Problem: Word2Vec / NN - лучший подход?

Я рассчитываю разработать систему, которая с учетом абзаца текста сможет классифицировать его и определить контекст: Обучается с пользовательскими текстовыми параграфами (например, комментарии / вопросы / ответы) Каждый элемент в обучающем наборе будет помечен. Так, например, («категория 1»,...

10
Как определить сложность английского предложения?

Я работаю над приложением, чтобы помочь людям выучить английский как второй язык. Я подтвердил, что предложения помогают в изучении языка, предоставляя дополнительный контекст. Я сделал это, проведя небольшое исследование в классе из 60 учеников. Я добыл более ста тысяч предложений из Википедии для...

10
Сколько времени занимают классификаторы scikit, чтобы классифицировать?

Я планирую использовать классификатор линейных опорных векторов (SVM) Scikit для классификации текста в корпусе, состоящем из 1 миллиона помеченных документов. Я планирую сделать следующее: когда пользователь вводит какое-либо ключевое слово, классификатор сначала классифицирует его по категории, а...

10
Предсказать лучшее время звонка

У меня есть набор данных, включающий набор клиентов в разных городах Калифорнии, время вызова для каждого клиента и статус вызова (True, если клиент отвечает на вызов, и False, если клиент не отвечает). Я должен найти подходящее время звонка для будущих клиентов, так что вероятность ответа на...

10
Когда мы должны считать набор данных несбалансированным?

Я сталкиваюсь с ситуацией, когда количество положительных и отрицательных примеров в наборе данных несбалансировано. Мой вопрос заключается в том, есть ли какие-то практические правила, которые говорят нам, когда нам следует отбирать большую категорию, чтобы навязать некоторый баланс в наборе...

9
Классификация векторных последовательностей

Мой набор данных состоит из векторных последовательностей. Каждый вектор имеет 50 вещественных измерений. Количество векторов в последовательности колеблется от 3-5 до 10-15. Другими словами, длина последовательности не является фиксированной. Некоторое значительное количество последовательностей...

9
Реляционный Data Mining без ILP

У меня есть огромный набор данных из реляционной базы данных, для которого мне нужно создать модель классификации. Обычно для этой ситуации я бы использовал индуктивное логическое программирование (ILP), но из-за особых обстоятельств я не могу этого сделать. Другой способ решения этой проблемы -...

9
Несбалансированные данные, приводящие к неправильной классификации в мультиклассовом наборе данных

Я работаю над классификацией текста, где у меня 39 категорий / классов и 8,5 миллионов записей. (В дальнейшем данные и категории будут увеличиваться). Структура или формат моих данных выглядит следующим образом....

9
Как мне подойти к проблеме классификации, когда один из классов определяется как «ни один из других»?

Предположим, что меня интересуют три класса , c 2 , c 3 . Но мой набор данных на самом деле содержит еще несколько реальных классов ( c j ) n j = 4 .с1c1c_1с2c2c_2с3с3c_3( сJ)NJ = 4(сJ)Jзнак равно4N(c_j)_{j=4}^n Очевидный ответ , чтобы определить новый класс гр 4 , который относится ко всем классам...

9
Реализовать дополнительный наивный байесовский в python?

проблема Я пытался использовать наивный байесовский код на помеченном наборе данных о преступности, но получил очень плохие результаты (точность 7%). Наивный Байес работает намного быстрее, чем другие алгоритмы, которые я использовал, поэтому я хотел попытаться выяснить, почему счет был таким...

9
Классифицировать многомерный временной ряд

У меня есть набор данных, состоящий из временных рядов (8 точек) примерно с 40 измерениями (поэтому каждый временной ряд равен 8 на 40). Соответствующий результат (возможные результаты для категорий) равен 0 или 1. Каков наилучший подход для разработки классификатора для временных рядов с...

9
Зачем использовать сверточные NN для задачи визуального осмотра по сравнению с классическим сопоставлением шаблонов CV?

У меня возникла интересная дискуссия, основанная на проекте, над которым мы работали: зачем использовать систему визуального осмотра CNN поверх алгоритма сопоставления шаблонов? Справочная информация: я продемонстрировал демонстрацию простой системы видеонаблюдения CNN (веб-камера + ноутбук),...

9
Библиотека Python, которая может вычислить матрицу путаницы для классификации по нескольким меткам

Я ищу библиотеку Python, которая может вычислить матрицу путаницы для классификации по нескольким меткам . FYI: scikit-learn не поддерживает мульти-метки для матрицы путаницы) В чем разница между Multiclass и Multilabel Problem...

9
Предложить наборы учебных текстовых классификаторов

Какие свободно доступные наборы данных я могу использовать для обучения текстового классификатора? Мы пытаемся повысить заинтересованность наших пользователей, порекомендовав для него наиболее связанный контент, поэтому мы подумали, что если мы классифицируем наш контент на основе заранее...

9
SGDClassifier: онлайн-обучение / part_fit с ранее неизвестным ярлыком

Мой тренировочный набор содержит около 50 тысяч записей, с которыми я делаю начальное обучение. На еженедельной основе добавляется ~ 5 тыс. Записей; но такое же количество «исчезает» (так как это пользовательские данные, которые должны быть удалены через некоторое время). Поэтому я использую...

8
Категоризация подходов к работе с несбалансированными классами

Каков наилучший способ классификации подходов, разработанных для решения проблемы класса дисбаланса? Эта статья разделяет их на: Предварительная обработка: включает передискретизацию, недостаточную выборку и гибридные методы, Чувствительное к затратам обучение: включает в себя прямые методы и...