Страдает ли классификация GBM несбалансированными размерами классов?

16

Я имею дело с контролируемой проблемой бинарной классификации. Я хотел бы использовать пакет GBM для классификации людей как незараженных / зараженных. У меня в 15 раз больше незараженных, чем у инфицированных.

Мне было интересно, страдают ли модели GBM в случае несбалансированных размеров классов? Я не нашел никаких ссылок на этот вопрос.

Я пытался откорректировать вес, назначив вес 1 для неинфицированных лиц и вес 15 для инфицированных, но я получил плохие результаты.

йо Йо
источник
1
(примечание) Было бы полезно, если бы вы указали, что означает GBM, и ссылку на пакет.
Мемминг
1
Какую функцию потерь вы используете для своей модели повышения градиента? Когда речь идет о несбалансированных классах, я видел низкую производительность, когда использовал среднюю абсолютную ошибку, потому что она, кажется, предпочитает самый распространенный класс. Когда я использовал среднеквадратическую ошибку, производительность существенно улучшилась
Райан Зотти,
Просто для справки в будущем, я считаю, что функция потерь по умолчанию, используемая каретной логарифмической потерей (перекрестное отклонение), также очень полезна. (это сильно наказывает за неправильные случаи в отрицательной логарифмической шкале)
Лили Лонг

Ответы:

4

По моему опыту, GBM действительно страдает от несбалансированных размеров классов. Я добился большого успеха, используя выборку SMOTE, которая создает синтетические данные при избыточной выборке класса меньшинства. Вы можете найти его в DMwRупаковке.

тройка
источник
Я немного смущен. Разве GBM не должен быть подходом к дисбалансу данных? Проверьте это analyticsvidhya.com/blog/2017/03/…
Ламоти
5

Я думаю, что ваши данные похожи на данные Secom, над которыми я работал в прошлом и столкнулся с множеством трудностей. Вот что я попробовал:

  • Различные методы отбора проб
  • Различные классификаторы, такие как Random Forest, ANN, GBM, методы ансамбля и т. Д.

Я также попробовал 1-классный SVM, который дал лучшие результаты по сравнению с другими, такими как adaboost, Random Forest. Вы также можете попробовать это.

И я вижу, что вы задавали этот вопрос 1 год назад, поэтому, если вы нашли лучший способ, пожалуйста, опубликуйте его здесь, чтобы я мог получить помощь от него, чтобы получить более точную информацию.

Анкит
источник