Допустим, у меня есть куча строк для задачи классификации:
Где - признаки / предикторы, а - класс, к которому относится комбинация признаков строки. Y
Многие комбинации функций и их классы повторяются в наборе данных, который я использую для подбора классификатора. Мне просто интересно, если допустимо удалить дубликаты (я в основном выполняю group by X1 ... XN Y
в SQL)? Спасибо.
PS:
Это только для бинарного набора данных присутствия, где априоры классов довольно искажены