Вопросы с тегом «unbalanced-classes»

15
SVM для несбалансированных данных

Я хочу попытаться использовать машины опорных векторов (SVM) в моем наборе данных. Перед тем, как попытаться решить проблему, меня предупредили, что SVM плохо работают с крайне несбалансированными данными. В моем случае у меня может быть 95-98% 0 и 2-5% 1. Я пытался найти ресурсы, в которых...

15
Предложения по обучению с учетом затрат в крайне несбалансированной среде

У меня есть набор данных с несколькими миллионами строк и ~ 100 столбцов. Я хотел бы обнаружить около 1% примеров в наборе данных, которые относятся к общему классу. У меня есть ограничение минимальной точности, но из-за очень асимметричной стоимости я не слишком заинтересован в каком-либо...

14
Подходит ли повышение градиента для данных с низкой частотой событий, таких как 1%?

Я пытаюсь повысить градиент для набора данных с частотой событий около 1%, используя Enterprise miner, но он не дает никакого вывода. Мой вопрос таков: поскольку это подход, основанный на дереве решений, правильно ли использовать градиентное усиление при таком низком...

14
Когда несбалансированные классы с избыточной / недостаточной выборкой, отличается ли максимальная точность от минимизации затрат на неправильную классификацию?

Прежде всего, я хотел бы описать некоторые распространенные макеты, которые используются в книгах Data Mining, и объяснить, как работать с несбалансированными наборами данных . Обычно основной раздел называется несбалансированными наборами данных, и они охватывают эти два подраздела: чувствительная...

13
Почему отсечение P> 0,5 не является «оптимальным» для логистической регрессии?

ПРЕДИСЛОВИЕ: Меня не волнуют преимущества использования отсечки или нет, или как выбрать отсечение. Мой вопрос чисто математический и из любопытства. Логистическая регрессия моделирует апостериорную условную вероятность класса A по сравнению с классом B, и она соответствует гиперплоскости, где...

12
Как уменьшить количество ложных срабатываний?

Я пытаюсь решить задачу, которая называется « Обнаружение пешеходов», и я тренирую двоичный класс по двум категориям: позитивные - люди, негативные - фон. У меня есть набор данных: количество позитивов = 3752 число отрицательных = 3800 Я использую train \ test split 80 \ 20% и форму scikit-learn...

11
Какую функцию потерь следует использовать для получения двоичного классификатора с высокой точностью или высокой степенью отзыва?

Я пытаюсь сделать детектор объектов, которые встречаются очень редко (в изображениях), планируя использовать двоичный классификатор CNN, применяемый в скользящем окне с измененным размером. Я построил сбалансированные положительно-отрицательные обучающие и тестовые наборы (кстати, правильно ли это...

11
Является ли f-мера синонимом точности?

Я понимаю, что f-мера (основанная на точности и отзыве) - это оценка точности классификатора. Кроме того, f-мера предпочтительнее точности, когда у нас есть несбалансированный набор данных. У меня есть простой вопрос (который больше об использовании правильной терминологии, чем о технологии). У...

10
ROC-кривые для несбалансированных наборов данных

Рассмотрим входную матрицу и двоичный выход .XXXyyy Распространенным способом измерения производительности классификатора является использование кривых ROC. На графике ROC диагональ - это результат, который можно получить из случайного классификатора. В случае несбалансированного выходного сигнала...

10
SMOTE выдает ошибку для мультиклассовой проблемы дисбаланса

Я пытаюсь использовать SMOTE для исправления дисбаланса в моей проблеме классификации нескольких классов. Хотя SMOTE отлично работает с набором данных iris согласно справочному документу SMOTE, он не работает с аналогичным набором данных. Вот как выглядят мои данные. Обратите внимание, что у него...

9
Передискретизация с категориальными переменными

Я хотел бы выполнить комбинацию передискретизации и недостаточной выборки, чтобы сбалансировать мой набор данных примерно с 4000 клиентами, разделенными на две группы, где доля одной из групп составляет примерно 15%. Я изучил SMOTE ( http://www.inside-r.org/packages/cran/DMwR/docs/SMOTE ) и ROSE (...

9
Какая модель глубокого обучения может классифицировать категории, которые не являются взаимоисключающими

Примеры: у меня есть предложение в должностной инструкции: «Старший инженер Java в Великобритании». Я хочу использовать модель глубокого обучения, чтобы предсказать ее как 2 категории: English и IT jobs. Если я использую традиционную классификационную модель, она может предсказать только 1 метку с...

9
порог классификации в RandomForest-sklearn

1) Как я могу изменить порог классификации (я думаю, он равен 0,5 по умолчанию) в RandomForest в sklearn? 2) как я могу пробовать в sklearn? 3) У меня есть следующий результат из классификатора RandomForest: [[1635 1297] [520 3624]] precision recall f1-score support class 0 0.76 0.56 0.64 2932...

9
Лучший способ обработки несбалансированного мультиклассового набора данных с помощью SVM

Я пытаюсь построить модель предсказания с SVM на довольно несбалансированных данных. Мои метки / выходные данные имеют три класса, положительный, нейтральный и отрицательный. Я бы сказал, что положительный пример составляет около 10–20% моих данных, нейтральный - около 50–60%, а отрицательный -...