Какова мера точности данных с несколькими метками?

25

Рассмотрим сценарий, в котором вам предоставляются матрицы KnownLabel и PredictedLabel. Я хотел бы измерить качество матрицы PredictedLabel по сравнению с матрицей KnownLabel.

Но проблема здесь заключается в том, что в KnownLabel Matrix есть несколько строк, только одна 1, а в других нескольких строках есть много 1 (эти экземпляры имеют несколько меток). Пример матрицы KnownLabel приведен ниже.

A =[1 0 0 0
    0 1 0 0
    0 1 1 0
    0 0 1 1
    0 1 1 1]

В приведенной выше матрице экземпляры данных 1 и 2 представляют собой данные с одной меткой, экземпляры данных 3 и 4 представляют собой данные с двумя метками, а экземпляр 5 данных представляют собой данные с тремя метками.

Теперь у меня есть PredictedLabel Matrix экземпляра данных с использованием алгоритма.

Я хотел бы знать различные меры, которые можно использовать для измерения качества матрицы PredictedLabel по сравнению с матрицей KnownLabel.

Я могу думать о разнице между нормами фобейна как одной из мер. Но я ищу меры, такие как точность (знак равноCorrectly_predicted_instancetotal_instance)

Вот как мы можем определить для множественного экземпляра данных?СорресTLY_преdясTеd

ученик
источник
5
(+1) Sidenote: Есть ли конкретная причина, по которой вы не приняли ответ в большинстве своих вопросов? Почему вы не оставили комментарий, если предоставленный ответ не решил вашу проблему? Например: stats.stackexchange.com/questions/9947/…
Штеффен

Ответы:

23

(1) дает хороший обзор:

введите описание изображения здесь

введите описание изображения здесь

классификации Wikipedia на странице с несколькими метками также есть раздел, посвященный метрикам оценки.

Я бы добавил предупреждение о том, что в настройках с несколькими метками точность неоднозначна: она может относиться либо к точному соотношению совпадений, либо к баллу Хэмминга (см. Это пост ). К сожалению, многие статьи используют термин «точность».


(1) Сороуер, Мохаммад С. " Литературное исследование по алгоритмам многокомпонентного обучения". Государственный университет Орегона, Корваллис (2010).

Франк Дернонкур
источник
2
Эти определения противоречат общим определениям точности и отзыва? Я всегда читал, что точность должна делиться на TP + FP, а отзыв должен делиться на TP + FN (предлагаемые здесь определения делают противоположное, если я правильно понял).
Томасяны
YяYзнак равно{0,1}КяZязнак равночас(Икся)знак равно{0,1}КчасYяZя
для accuracyмеры, как вы элегантно обрабатывает случаи, когда знаменатель |Y + Z| == 0?
Ихаданни
3
@tomasyany относится к текстовым определениям (не формулам), которые, похоже, переключаются.
Нарфанар
И это определение AP больше похоже на mAP (имеется в виду AP), нет? То, что называется «Точность», - это средняя долговая расписка. Условия довольно запутанные в целом.
Нарфанар
5

Потеря Хемминга, вероятно, является наиболее широко используемой функцией потерь в классификации по нескольким меткам.

Взгляните на эмпирические исследования по классификации с несколькими метками и классификации с несколькими метками: обзор , которые оба обсуждают это.

TDC
источник
3

Correctly Predictedявляется пересечением между набором предлагаемых меток и набором ожидаемых. Total Instancesэто объединение наборов выше (без учета дубликатов).

Итак, приведем один пример, в котором вы предсказываете классы, A, G, Eа тестовый пример имеет E, A, H, PправильныеAccuracy = Intersection{(A,G,E), (E,A,H,P)} / Union{(A,G,E), (E,A,H,P)} = 2 / 5

Марселлус Уоллес
источник