Если я правильно понимаю, у вас есть проблема классификации двух классов, где положительный класс (совпадения) встречается редко. Многие классификаторы борются с таким классовым дисбалансом, и обычной практикой является выборочная выборка для большинства классов для достижения лучшей производительности, поэтому ответ на первый вопрос - «да». Однако, если вы отбираете слишком много выборок, вы в конечном итоге получите классификатор, который переоценивает положительный класс меньшинства, поэтому лучше всего выбрать коэффициент подвыборки, чтобы максимизировать производительность, возможно, путем минимизации перекрестной выборки. ошибка проверки, при которой данные испытаний не были подвергнуты выборочной выборке, поэтому вы получите хороший показатель эксплуатационных характеристик.
Если у вас есть вероятностный классификатор, который дает оценку вероятности членства в классе, вы можете сделать еще один шаг вперед и обработать выходные данные, чтобы компенсировать разницу между частотами класса в обучающем наборе и в работе. Я подозреваю, что для некоторых классификаторов оптимальный подход состоит в том, чтобы оптимизировать как коэффициент подвыборки, так и поправку к выходу путем оптимизации ошибки перекрестной проверки.
Вместо подвыборки, для некоторых классификаторов (например, SVM) вы можете по-разному оценивать положительные и отрицательные закономерности. Я предпочитаю это субдискретизации, так как это означает, что нет результатов в результатах из-за конкретной используемой субдискретизации. Там, где это невозможно, используйте начальную загрузку для создания классификатора в пакетах, где в каждой итерации используется разная подвыборка класса большинства.
Еще одна вещь, которую я бы сказал, это то, что обычно, когда существует большой дисбаланс классов, ложноотрицательные ошибки и ложно положительные ошибки не одинаково плохи, и это хорошая идея, чтобы встроить это в дизайн классификатора (который может быть выполнен образцы выборки или взвешивания, принадлежащие каждому классу).
По поводу (1). Вам нужно сохранять положительные и отрицательные замечания, если вы хотите значимых результатов.
(2) Нет более мудрого метода субсэмплинга, чем равномерное распределение, если у вас нет априори в ваших данных.
источник