Я хотел бы проверить мою обученную модель на несбалансированном наборе данных. Есть ли какие-либо алгоритмы для генерации синтетических данных из сбалансированного помеченного набора данных (спам / не спам)?
unbalanced-classes
synthetic-data
Стюарт Петерсон
источник
источник
Ответы:
Попробуйте SMOTE , это алгоритм, используемый для передискретизации . Он создает синтетические образцы из класса, который вы хотите перевыбор.
Вы можете использовать это, чтобы создать любое количество образцов, которые вам нужны.
источник