Создание несбалансированного набора данных

11

Я хотел бы проверить мою обученную модель на несбалансированном наборе данных. Есть ли какие-либо алгоритмы для генерации синтетических данных из сбалансированного помеченного набора данных (спам / не спам)?

Стюарт Петерсон
источник
Вы всегда можете разбалансировать любой набор данных, просто сократив выборку одного класса.
user2974951

Ответы:

8

Попробуйте SMOTE , это алгоритм, используемый для передискретизации . Он создает синтетические образцы из класса, который вы хотите перевыбор.

Вы можете использовать это, чтобы создать любое количество образцов, которые вам нужны.

Mary93
источник
1
можно ли использовать SMOTE для недостаточной выборки?
Стюарт Петерсон
Что ж, вы можете получить недостаточную выборку класса A с помощью класса повышенной выборки notA ...
kjetil b halvorsen
3
@StuartPeterson Нет, SMOTE - это алгоритм избыточной выборки, но есть много других алгоритмов
недостаточной