Мне нужно классифицировать URL-адреса по категориям. Скажем, у меня есть 15 категорий, к которым я планирую обнулить каждый URL.
Классификатор с 15 путями лучше? Где у меня есть 15 меток и генерировать функции для каждой точки данных.
Или построить 15 бинарных классификаторов, скажем: Movie или Non-Movie, и использовать числа, которые я получу из этих классификаций, чтобы построить ранкер, чтобы выбрать лучшую категорию, которая будет лучше?
Это будет зависеть от того, как ваши данные рассредоточены. Есть прекрасный пример, который был недавно дан аналогичному вопросу, в котором ОП хотел знать, будет ли одна линейная дискриминантная функция лучше классифицировать для определения совокупности A против B или C или основанная на множественных линейных дискриминантных функциях, которые разделяют A, B и C. Кто-то дал очень хорошую цветную диаграмму рассеяния, чтобы показать, как использование двух дискриминантов будет лучше, чем один в этом случае. Я постараюсь дать ссылку на него.
источник
Некоторые методы хорошо работают с мультиклассами, случайными лесами, MLP, например.
Если вы не хотите идти по этому пути, то, возможно, ECOC сможет выполнить 1-все-все для вашей проблемы, покажет только тестирование.
источник