Является ли построение мультиклассового классификатора лучше, чем несколько бинарных?

18

Мне нужно классифицировать URL-адреса по категориям. Скажем, у меня есть 15 категорий, к которым я планирую обнулить каждый URL.

Классификатор с 15 путями лучше? Где у меня есть 15 меток и генерировать функции для каждой точки данных.

Или построить 15 бинарных классификаторов, скажем: Movie или Non-Movie, и использовать числа, которые я получу из этих классификаций, чтобы построить ранкер, чтобы выбрать лучшую категорию, которая будет лучше?

madCode
источник

Ответы:

12

Прежде всего, вы должны спросить себя, является ли ваша проблема многоуровневой (т.е. один URL-адрес может принадлежать нескольким классам) или нет (т.е. один URL-адрес может принадлежать только одному классу).

Если первое, используйте набор двоичных классификаторов, потому что это способ решения проблем с несколькими метками по умолчанию.

Если последнее, ответ зависит от сочетания того, как выглядят ваши данные, какова цель вашего анализа и какой метод вы используете - вероятно, вам следует просто попробовать оба варианта и выбрать лучший.
Следует только отметить, что некоторые методы (например, SVM) не могут на самом деле выполнять мультиклассовую классификацию из-за того, как они определены, и, таким образом, внутренне используют батарею двоичных классификаторов.


источник
моя проблема в постановке рассматривает предыдущее предположение @mbq. Я знаю, что есть мультилейблы. и да, как вы сказали, я решил пойти на 15 бинарных классификаторов, но опять же, мне нужно оценить их, чтобы выбрать одну лучшую категорию. Итак, я собираюсь попробовать выполнить другую классификацию верхнего уровня, используя числа, которые я получил от батареи двоичных классификаторов. Вы видите какие-либо проблемы?
madCode
SVM могут выполнять мультиклассовую классификацию. Этот метод очень похож на регрессию softmax (см. «Об алгоритмической реализации мультиклассовых векторных машин на основе ядра»).
user1149913
4

Это будет зависеть от того, как ваши данные рассредоточены. Есть прекрасный пример, который был недавно дан аналогичному вопросу, в котором ОП хотел знать, будет ли одна линейная дискриминантная функция лучше классифицировать для определения совокупности A против B или C или основанная на множественных линейных дискриминантных функциях, которые разделяют A, B и C. Кто-то дал очень хорошую цветную диаграмму рассеяния, чтобы показать, как использование двух дискриминантов будет лучше, чем один в этом случае. Я постараюсь дать ссылку на него.

Майкл Р. Черник
источник
Подожди. У меня проблемы с поиском, но я буду продолжать искать.
Майкл Р. Черник
Извините за невозможность найти ссылку. Представьте себе облако одного цвета слева, другого посередине и третьего справа. Две линейные дискриминантные линии неплохо бы отделить среднюю группу от левой и правой, но ни одна прямая вообще не сработает. Картина будет стоить больше, чем все эти слова.
Майкл Р. Черник
1
@MichaelChernick Это ссылка, которую вы ищете?
Мне кажется, я понимаю, что вы говорите: bit.ly/M1NydS - картина, которую вы определили, я натолкнулся на эту презентацию. 4 способа или 3 способа классификации .. может быть прямым. Но .. Мне интересно, если точность / отзыв будет поставлен под угрозу, если сделать 15-способ классификации, доктор Черник.
madCode
@Procrastinator Спасибо, что нашли это. У меня было так много проблем с поиском, и я потратил много времени на поиски! Это был недавний пост, поэтому я думаю, что синица будет легко найти.
Майкл Р. Черник
1

Некоторые методы хорошо работают с мультиклассами, случайными лесами, MLP, например.

Если вы не хотите идти по этому пути, то, возможно, ECOC сможет выполнить 1-все-все для вашей проблемы, покажет только тестирование.

image_doctor
источник