Мне было интересно, если кто-нибудь может объяснить разницу между сбалансированной точностью, которая b_acc = (sensitivity + specificity)/2 и оценка f1: f1 = 2*precision*recall/(precision + recall)...
Мне было интересно, если кто-нибудь может объяснить разницу между сбалансированной точностью, которая b_acc = (sensitivity + specificity)/2 и оценка f1: f1 = 2*precision*recall/(precision + recall)...
Я хочу попытаться использовать машины опорных векторов (SVM) в моем наборе данных. Перед тем, как попытаться решить проблему, меня предупредили, что SVM плохо работают с крайне несбалансированными данными. В моем случае у меня может быть 95-98% 0 и 2-5% 1. Я пытался найти ресурсы, в которых...
У меня есть набор данных с несколькими миллионами строк и ~ 100 столбцов. Я хотел бы обнаружить около 1% примеров в наборе данных, которые относятся к общему классу. У меня есть ограничение минимальной точности, но из-за очень асимметричной стоимости я не слишком заинтересован в каком-либо...
SVM обрабатывает несбалансированный набор данных? Это какие-либо параметры (например, C или стоимость неправильной классификации), обрабатывающие несбалансированный набор...
Я пытаюсь повысить градиент для набора данных с частотой событий около 1%, используя Enterprise miner, но он не дает никакого вывода. Мой вопрос таков: поскольку это подход, основанный на дереве решений, правильно ли использовать градиентное усиление при таком низком...
Прежде всего, я хотел бы описать некоторые распространенные макеты, которые используются в книгах Data Mining, и объяснить, как работать с несбалансированными наборами данных . Обычно основной раздел называется несбалансированными наборами данных, и они охватывают эти два подраздела: чувствительная...
ПРЕДИСЛОВИЕ: Меня не волнуют преимущества использования отсечки или нет, или как выбрать отсечение. Мой вопрос чисто математический и из любопытства. Логистическая регрессия моделирует апостериорную условную вероятность класса A по сравнению с классом B, и она соответствует гиперплоскости, где...
Я пытаюсь решить задачу, которая называется « Обнаружение пешеходов», и я тренирую двоичный класс по двум категориям: позитивные - люди, негативные - фон. У меня есть набор данных: количество позитивов = 3752 число отрицательных = 3800 Я использую train \ test split 80 \ 20% и форму scikit-learn...
Я хотел бы проверить мою обученную модель на несбалансированном наборе данных. Есть ли какие-либо алгоритмы для генерации синтетических данных из сбалансированного помеченного набора данных (спам / не...
Я пытаюсь сделать детектор объектов, которые встречаются очень редко (в изображениях), планируя использовать двоичный классификатор CNN, применяемый в скользящем окне с измененным размером. Я построил сбалансированные положительно-отрицательные обучающие и тестовые наборы (кстати, правильно ли это...
Я понимаю, что f-мера (основанная на точности и отзыве) - это оценка точности классификатора. Кроме того, f-мера предпочтительнее точности, когда у нас есть несбалансированный набор данных. У меня есть простой вопрос (который больше об использовании правильной терминологии, чем о технологии). У...
Рассмотрим входную матрицу и двоичный выход .XXXyyy Распространенным способом измерения производительности классификатора является использование кривых ROC. На графике ROC диагональ - это результат, который можно получить из случайного классификатора. В случае несбалансированного выходного сигнала...
Я пытаюсь использовать SMOTE для исправления дисбаланса в моей проблеме классификации нескольких классов. Хотя SMOTE отлично работает с набором данных iris согласно справочному документу SMOTE, он не работает с аналогичным набором данных. Вот как выглядят мои данные. Обратите внимание, что у него...
Я хотел бы выполнить комбинацию передискретизации и недостаточной выборки, чтобы сбалансировать мой набор данных примерно с 4000 клиентами, разделенными на две группы, где доля одной из групп составляет примерно 15%. Я изучил SMOTE ( http://www.inside-r.org/packages/cran/DMwR/docs/SMOTE ) и ROSE (...
Примеры: у меня есть предложение в должностной инструкции: «Старший инженер Java в Великобритании». Я хочу использовать модель глубокого обучения, чтобы предсказать ее как 2 категории: English и IT jobs. Если я использую традиционную классификационную модель, она может предсказать только 1 метку с...
1) Как я могу изменить порог классификации (я думаю, он равен 0,5 по умолчанию) в RandomForest в sklearn? 2) как я могу пробовать в sklearn? 3) У меня есть следующий результат из классификатора RandomForest: [[1635 1297] [520 3624]] precision recall f1-score support class 0 0.76 0.56 0.64 2932...
Я пытаюсь построить модель предсказания с SVM на довольно несбалансированных данных. Мои метки / выходные данные имеют три класса, положительный, нейтральный и отрицательный. Я бы сказал, что положительный пример составляет около 10–20% моих данных, нейтральный - около 50–60%, а отрицательный -...