Удалить дубликаты из тренировочного набора для классификации

9

Допустим, у меня есть куча строк для задачи классификации:

X1,...XN,Y

Где - признаки / предикторы, а - класс, к которому относится комбинация признаков строки. YX1,...,XNY

Многие комбинации функций и их классы повторяются в наборе данных, который я использую для подбора классификатора. Мне просто интересно, если допустимо удалить дубликаты (я в основном выполняю group by X1 ... XN Yв SQL)? Спасибо.

PS:

Это только для бинарного набора данных присутствия, где априоры классов довольно искажены

cs0815
источник

Ответы:

13

Нет, это не приемлемо. Повторения - это то, что обеспечивает вес доказательств.

Если вы удалите дубликаты, клевер с четырьмя листьями будет столь же значительным, как и обычный клевер с тремя листьями, поскольку каждый будет встречаться один раз, тогда как в реальной жизни на каждые 10000 регулярных клеверов приходится четыре листа клевера.

Как вы говорите, даже если ваши априоры «весьма искажены», цель тренировочного набора - накопить реальный опыт, которого вы не добьетесь, если потеряете информацию о частоте.

Карлос Аккиоли
источник
1

Я согласен с предыдущим ответом, но здесь мои оговорки. Рекомендуется удалять дубликаты при разделении выборок для обучения и тестирования для определенных классификаторов, таких как деревья решений. Скажем, 20% ваших данных принадлежали к определенному классу, и из тех, что просочились в тестирование, затем алгоритмы, такие как деревья решений, создадут шлюзы для этого класса с дублирующимися образцами. Это может привести к вводящим в заблуждение результатам на тестовом наборе, поскольку по существу существует очень специфический шлюз для правильного вывода.14th

При развертывании этого классификатора в совершенно новых данных он может работать на удивление плохо, если нет образцов, похожих на вышеупомянутые 20% выборок.

Аргумент : Можно утверждать, что эта ситуация указывает на некорректный набор данных, но я думаю, что это верно для реальных приложений.

Удаление дубликатов для нейронных сетей, байесовских моделей и т. Д. Недопустимо.

Ракшит Котари
источник
Другим возможным решением может быть уменьшение веса дубликатов в зависимости от частоты их появления.
Ракшит Котари