Вопросы с тегом «classification»

17
Объединение разреженных и плотных данных в машинном обучении для повышения производительности

У меня есть редкие признаки, которые являются прогнозирующими, также у меня есть некоторые плотные признаки, которые также являются прогнозирующими. Мне нужно объединить эти функции вместе, чтобы улучшить общую производительность классификатора. Дело в том, что когда я пытаюсь объединить их вместе,...

17
Выберите алгоритм двоичной классификации

У меня есть проблема двоичной классификации: Примерно 1000 образцов в тренировочном наборе 10 атрибутов, включая двоичные, числовые и категориальные Какой алгоритм является лучшим выбором для этого типа проблемы? По умолчанию я собираюсь начать с SVM (предварительно имея номинальные значения...

16
Как повысить точность классификаторов?

Я использую пример OpenCV letter_recog.cpp для экспериментов со случайными деревьями и другими классификаторами. Этот пример имеет реализации шести классификаторов - случайных деревьев, бустинга, MLP, kNN, наивных байесовских и SVM. Используется набор данных для распознавания букв UCI с 20000...

16
В чем причина лог-преобразования нескольких непрерывных переменных?

Я занимался проблемой классификации, и я читал код и учебные пособия многих людей. Одна вещь, которую я заметил, это то, что многие люди принимают np.logили logнепрерывные переменные, такие как loan_amountили applicant_incomeт. Я просто хочу понять причину этого. Помогает ли это улучшить точность...

16
Одноклассная дискриминационная классификация с несбалансированным, гетерогенным отрицательным фоном?

Я работаю над улучшением существующего контролируемого классификатора, чтобы классифицировать последовательности {белка} как принадлежащие к определенному классу (предшественники нейропептидных гормонов) или нет. Существует около 1150 известных «позитивов» на фоне около 13 миллионов белковых...

16
сделать морскую карту тепла больше

Я создаю corr()DF из оригинального DF. corr()ДФ вышел 70 X 70 и невозможно представить себе Heatmap ... sns.heatmap(df). Если я попытаюсь отобразить corr = df.corr(), таблица не умещается на экране, и я вижу все корреляции. Это способ печати всего, dfнезависимо от его размера, или контроля размера...

14
Изменение размера изображения и отступ для CNN

Я хочу обучить CNN распознаванию изображений. Изображения для обучения не имеют фиксированного размера. Я хочу, чтобы размер ввода для CNN был 50x100 (высота х ширина), например. Когда я изменяю размер изображения небольшого размера (например, 32x32) до входного размера, содержимое изображения...

14
Есть ли в ImageNet класс человека? Есть ли классы, связанные с людьми?

Если я смотрю на одном из многочисленных источников для классов Imagenet по Интернету я не могу найти ни одного класса , связанного с людьми (и нет, сенокосец не тот , кто собирает, но это то , что я знал , как папа Longlegs, своего рода паук :-). Как это возможно? Я бы, по крайней мере , ожидал...

14
Дерево решений или логистическая регрессия?

Я работаю над проблемой классификации. У меня есть набор данных, содержащий равное количество категориальных переменных и непрерывных переменных. Как я узнаю, какую технику использовать? между деревом решений и логистической регрессией? Правильно ли предположить, что логистическая регрессия будет...

14
Использование атрибутов для классификации / кластеризации пользовательских профилей

У меня есть набор данных пользователей, покупающих продукты с веб-сайта. У меня есть следующие атрибуты: идентификатор пользователя, регион (штат) пользователя, идентификатор категории продукта, идентификатор ключевых слов продукта, идентификатор ключевых слов веб-сайта и объем продаж продукта....

14
Как выбрать точку разделения для непрерывных переменных в деревьях решений?

У меня есть два вопроса, связанных с деревьями решений: Если у нас есть непрерывный атрибут, как мы выбираем значение разделения? Пример: возраст = (20,29,50,40 ....) Представьте себе , что мы имеем непрерывный атрибут , которые имеют значение в . Как я могу написать алгоритм, который находит точку...

14
Модель двоичной классификации для несбалансированных данных

У меня есть набор данных со следующими спецификациями: Учебный набор данных с 193 176 пробами с 2821 положительным результатом Тестовый набор данных с 82 887 образцами с 673 положительными Есть 10 функций. Я хочу выполнить двоичную классификацию (0 или 1). Проблема, с которой я сталкиваюсь,...

14
Как обработать нулевой фактор в расчете наивного байесовского классификатора?

Если у меня есть набор обучающих данных, и я обучаю его наивному байесовскому классификатору, и у меня есть значение атрибута, вероятность которого равна нулю. Как мне справиться с этим, если позже я хочу предсказать классификацию на новых данных? Проблема в том, что если в расчете есть ноль, то...

13
Лучший способ классифицировать наборы данных со смешанными типами атрибутов

Я хотел бы знать, каков наилучший способ классификации набора данных, состоящего из смешанных типов атрибутов, например, текстовых и числовых. Я знаю, что могу преобразовать текст в булеву, но словарь разнообразен и данные становятся слишком редкими. Я также пытался классифицировать типы атрибутов...

12
Сколько ячеек LSTM я должен использовать?

Существуют ли какие-либо практические правила (или фактические правила), касающиеся минимального, максимального и «разумного» количества ячеек LSTM, которые я должен использовать? В частности, я имею в виду BasicLSTMCell из TensorFlow и num_unitsсвойства. Пожалуйста, предположите, что у меня есть...

12
В чем разница между глобальным и универсальным методами сжатия?

Я понимаю, что методы сжатия можно разделить на два основных набора: Глобальный местный Первый набор работает независимо от обрабатываемых данных, т. Е. Они не зависят от какой-либо характеристики данных и, следовательно, не требуют какой-либо предварительной обработки какой-либо части набора...

12
Классификация клиентов на основе 2 функций и временных рядов событий

Мне нужна помощь в том, что должно быть моим следующим шагом в алгоритме, который я разрабатываю. Из-за NDA я не могу раскрыть многое, но постараюсь быть обобщенным и понятным. В основном, после нескольких шагов в алгоритмах, у меня есть это: Для каждого имеющегося у меня клиента и событий, которые...

12
Глубокое обучение с помощью спектрограмм для распознавания звука

Я искал возможность классифицировать звук (например, звуки животных), используя спектрограммы. Идея состоит в том, чтобы использовать глубоко сверточные нейронные сети, чтобы распознавать сегменты в спектрограмме и выводить одну (или несколько) меток классов. Это не новая идея (см., Например,...

12
Классификация неструктурированного текста

Я собираюсь классифицировать неструктурированные текстовые документы, а именно сайты неизвестной структуры. Количество классов, которые я классифицирую, ограничено (на данный момент я считаю, что их не более трех). У кого-нибудь есть предложения о том, как мне начать? Возможен ли подход "мешок...