Вопросы с тегом «unbalanced-classes»

48
Должен ли я пойти на «сбалансированный» набор данных или «представительный» набор данных?

Моя задача «машинного обучения» - отделить доброкачественный интернет-трафик от вредоносного. В сценарии реального мира большая часть (скажем, 90% или более) интернет-трафика является доброкачественной. Таким образом, я почувствовал, что должен выбрать аналогичную настройку данных для обучения...

29
Краткое руководство по обучению сильно несбалансированных наборов данных

У меня проблема с классификацией примерно 1000 положительных и 10000 отрицательных образцов в тренировочном наборе. Так что этот набор данных довольно несбалансированный. Обычный случайный лес просто пытается пометить все тестовые образцы как мажоритарный класс. Некоторые хорошие ответы о...

20
Несбалансированные мультиклассовые данные с XGBoost

У меня есть 3 класса с этим распределением: Class 0: 0.1169 Class 1: 0.7668 Class 2: 0.1163 И я использую xgboostдля классификации. Я знаю, что есть параметр с именем scale_pos_weight. Но как это обрабатывается для случая «мультикласса», и как я могу правильно установить...

14
Каковы последствия для обучения ансамбля дерева с сильно смещенными наборами данных?

У меня есть сильно смещенный набор двоичных данных - у меня в 1000 раз больше примеров отрицательного класса, чем положительного. Я хотел бы обучить ансамбль дерева (например, дополнительные случайные деревья или случайный лес) на этих данных, но сложно создать обучающие наборы данных, которые...

13
Как вы применяете SMOTE в текстовой классификации?

Техника избыточной выборки синтетического меньшинства (SMOTE) - это метод избыточной выборки, используемый в проблеме с несбалансированным набором данных. До сих пор у меня есть идея, как применить его к общим структурированным данным. Но возможно ли применить его к проблеме классификации текста?...

12
Сколько ячеек LSTM я должен использовать?

Существуют ли какие-либо практические правила (или фактические правила), касающиеся минимального, максимального и «разумного» количества ячеек LSTM, которые я должен использовать? В частности, я имею в виду BasicLSTMCell из TensorFlow и num_unitsсвойства. Пожалуйста, предположите, что у меня есть...

11
Несбалансированные классы - Как минимизировать ложные негативы?

У меня есть набор данных, который имеет атрибут бинарного класса. Имеется 623 случая с классом +1 (рак положительный) и 101 671 случай с классом -1 (рак отрицательный). Я пробовал различные алгоритмы (Наивный Байес, Случайный лес, AODE, C4.5), и все они имеют недопустимые ложноотрицательные...