В чем разница между Multiclass и Multilabel Problem

52

В чем разница между проблемой мультикласса и проблемой мультиметки?

ученик
источник
Обе задачи могут быть выполнены с помощью программного пакета Vowpal Wabbit (доступны из командной строки, привязки к Python).
Владислав Довгальец
Я изучил эту концепцию и развил мое понимание с помощью этого поста , они объяснили мультимарочную классификацию очень элегантно.
user235077

Ответы:

45

Я подозреваю, что различие заключается в том, что в задачах с несколькими классами классы являются взаимоисключающими, тогда как для задач с несколькими метками каждая метка представляет собой отдельную задачу классификации, но задачи как-то связаны (поэтому есть преимущество в их решении вместе, а не по отдельности. ). Например, в известном наборе данных о крабах leptograspus есть примеры самцов и самок двухцветных форм краба. Вы можете подходить к этому как к мультиклассовой задаче с четырьмя классами (мужской-синий, женский-синий, мужской-оранжевый, женский-оранжевый) или как к проблеме с несколькими метками, где один ярлык будет мужской / женский, а другой синий. /оранжевый. По существу, в задачах с несколькими метками шаблон может принадлежать более чем одному классу.

Дикран Сумчатый
источник
@Dirkran Спасибо за ваше объяснение. Знаете ли вы какой - либо другой источник , где я могу получить MultiLabel набора данных, кроме csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/multilabel.html и mulan.sourceforge.net/datasets.html
Learner
@Learner жаль, что я над этим не над чем работал. Возможно, вы захотите взглянуть на многозадачное обучение, которое имеет некоторые сходства с многокомпонентным обучением. Возможно, некоторые из наборов данных, использованных для этого, также могут быть полезны в качестве эталонов для обучения по нескольким меткам.
Дикран Marsupial
26

Мультиклассовая классификация означает классификационную задачу с более чем двумя классами; например, классифицировать набор изображений фруктов, которые могут быть апельсинами, яблоками или грушами. Мультиклассовая классификация предполагает, что каждому образцу присваивается один и только один ярлык: плод может быть яблоком или грушей, но не обоими одновременно.

Многослойная классификация присваивает каждому образцу набор целевых меток. Это можно рассматривать как прогнозирование свойств точки данных, которые не являются взаимоисключающими, таких как темы, имеющие отношение к документу. Текст может быть о любой религии, политике, финансах или образовании одновременно или ни о одном из них.

Взято с http://scikit-learn.org/stable/modules/multiclass.html

Тамме Говда
источник
18

Чтобы дополнить другие ответы, вот некоторые цифры. Одна строка = ожидаемый результат для одного образца.

MultiClass

Один столбец = один класс (горячее кодирование)

введите описание изображения здесь

Multilabel

Один столбец = один класс

введите описание изображения здесь


Ты видишь это:

  • в случае с несколькими метками одному образцу может быть назначено более одного класса.
  • в случае мультикласса существует более 2 классов.

В качестве примечания, ничто не мешает вам иметь проблему классификации multioutput-multiclass , например:

введите описание изображения здесь

Франк Дернонкур
источник
7

Задача мультикласса заключается в присвоении экземпляров одному из конечных, взаимоисключающих наборов классов. Как в примере, который уже дан крабам (из @Dikran): мужской-синий, женский-синий, мужской-оранжевый, женский-оранжевый. Каждый из них исключает других и взятых вместе они являются всеобъемлющими.

Одна из форм мультимаркированной проблемы - разделить их на две метки: пол и цвет; где секс может быть мужским или женским, а цвет может быть синим или оранжевым. Но обратите внимание, что это особый случай проблемы с несколькими метками, поскольку каждый экземпляр получит каждую метку (то есть у каждого краба есть и пол, и цвет).

Проблемы с несколькими метками также включают другие случаи, которые позволяют назначать переменное число меток каждому экземпляру. Например, статья в газетной или телеграфной службе может быть отнесена к категориям НОВОСТИ, ПОЛИТИКА, СПОРТ, МЕДИЦИНА и т. Д. Одна история о важном спортивном событии получит назначение ярлыка СПОРТ; в то время как другой, связанный с политической напряженностью, которая проявляется в том или ином спортивном событии, может получить как SPORTS, так и POLITICS. Где я нахожусь, в США, результаты Суперкубка помечены как СПОРТ и НОВОСТИ, учитывая общественное влияние события.

Обратите внимание, что эта форма маркировки с переменным числом меток может быть преобразована в форму, подобную примеру с крабами; за исключением того, что каждая метка рассматривается как LABEL-X или не-LABEL-X. Но не все методы требуют такой переделки.

Doctorambient
источник
2

И еще одно отличие состоит в том, что проблема с несколькими метками требует, чтобы модель изучала корреляцию между различными классами, но в задачах с несколькими классами разные классы не зависят друг от друга.

Лернер Чжан
источник