У меня очень несбалансированный набор тестовых данных. Положительный набор состоит из 100 случаев, а отрицательный - 1500 случаев. Что касается обучения, у меня больше кандидатов: в наборе положительных тренировок 1200 случаев, а в наборе отрицательных - 12000 случаев. Для такого сценария у меня есть несколько вариантов:
1) Использование взвешенного SVM для всего тренировочного набора (P: 1200, N: 12000)
2) Используя SVM на основе выборочного обучающего набора (P: 1200, N: 1200), 1200 отрицательных случаев отбираются из 12000 случаев.
Есть ли теоретическое руководство по решению, какой подход лучше? Так как набор тестовых данных сильно несбалансирован, должен ли я также использовать несбалансированный обучающий набор?
Ответы:
Из недавнего поста на reddit ответ от datapraxis будет интересен.
редактировать: упомянутый документ - Хайбо Хе, Эдвардо А. Гарсия, «Изучение несбалансированных данных», «IEEE транзакции в области знаний и инженерии данных», с. 1263-1284, сентябрь 2009 г. (PDF)
источник
Парная расширенная логистическая регрессия, ROC-обучение, Boosting и Bagging (агрегация Bootstrap), кластерный ансамбль на основе каналов (LCE), Байесовская сеть, Ближайшие центроидные классификаторы, Байесовские методы, Взвешенный грубый набор, k-NN
и множество методов выборки для устранения дисбаланса.
источник