Я имею дело с контролируемой проблемой бинарной классификации. Я хотел бы использовать пакет GBM для классификации людей как незараженных / зараженных. У меня в 15 раз больше незараженных, чем у инфицированных.
Мне было интересно, страдают ли модели GBM в случае несбалансированных размеров классов? Я не нашел никаких ссылок на этот вопрос.
Я пытался откорректировать вес, назначив вес 1 для неинфицированных лиц и вес 15 для инфицированных, но я получил плохие результаты.
Ответы:
По моему опыту, GBM действительно страдает от несбалансированных размеров классов. Я добился большого успеха, используя выборку SMOTE, которая создает синтетические данные при избыточной выборке класса меньшинства. Вы можете найти его в
DMwR
упаковке.источник
Я думаю, что ваши данные похожи на данные Secom, над которыми я работал в прошлом и столкнулся с множеством трудностей. Вот что я попробовал:
Я также попробовал 1-классный SVM, который дал лучшие результаты по сравнению с другими, такими как adaboost, Random Forest. Вы также можете попробовать это.
И я вижу, что вы задавали этот вопрос 1 год назад, поэтому, если вы нашли лучший способ, пожалуйста, опубликуйте его здесь, чтобы я мог получить помощь от него, чтобы получить более точную информацию.
источник