Что вы думаете о передискретизации в классификации в целом и алгоритме SMOTE в частности? Почему бы нам не просто применить цену / штраф, чтобы скорректировать дисбаланс в данных класса и любую несбалансированную стоимость ошибок? Для моих целей точность прогноза для будущего набора экспериментальных единиц является конечной мерой.
Для справки, документ SMOTE: http://www.jair.org/papers/paper953.html
machine-learning
classification
oversampling
Дейв Камминс
источник
источник
Ответы:
{1} дает список преимуществ и недостатков чувствительного к стоимости обучения по сравнению с выборкой:
Они также провели серию экспериментов, которые не дали результатов:
Затем они пытаются понять, какие критерии в наборах данных могут указывать на то, какой метод лучше подходит.
Они также отмечают, что SMOTE может принести некоторые улучшения:
{1} Вайс, Гари М., Кейт Маккарти и Биби Забар. «Чувствительное к затратам обучение по сравнению с выборкой: что лучше всего подходит для обработки несбалансированных классов с неравной стоимостью ошибок?» DMIN 7 (2007): 35-41. https://scholar.google.com/scholar?cluster=10779872536070567255&hl=en&as_sdt=0,22 ; https://pdfs.semanticscholar.org/9908/404807bf6b63e05e5345f02bcb23cc739ebd.pdf
источник