Рассмотрим сценарий, в котором вам предоставляются матрицы KnownLabel и PredictedLabel. Я хотел бы измерить качество матрицы PredictedLabel по сравнению с матрицей KnownLabel.
Но проблема здесь заключается в том, что в KnownLabel Matrix есть несколько строк, только одна 1, а в других нескольких строках есть много 1 (эти экземпляры имеют несколько меток). Пример матрицы KnownLabel приведен ниже.
A =[1 0 0 0
0 1 0 0
0 1 1 0
0 0 1 1
0 1 1 1]
В приведенной выше матрице экземпляры данных 1 и 2 представляют собой данные с одной меткой, экземпляры данных 3 и 4 представляют собой данные с двумя метками, а экземпляр 5 данных представляют собой данные с тремя метками.
Теперь у меня есть PredictedLabel Matrix экземпляра данных с использованием алгоритма.
Я хотел бы знать различные меры, которые можно использовать для измерения качества матрицы PredictedLabel по сравнению с матрицей KnownLabel.
Я могу думать о разнице между нормами фобейна как одной из мер. Но я ищу меры, такие как точность
Вот как мы можем определить для множественного экземпляра данных?
Ответы:
(1) дает хороший обзор:
классификации Wikipedia на странице с несколькими метками также есть раздел, посвященный метрикам оценки.
Я бы добавил предупреждение о том, что в настройках с несколькими метками точность неоднозначна: она может относиться либо к точному соотношению совпадений, либо к баллу Хэмминга (см. Это пост ). К сожалению, многие статьи используют термин «точность».
(1) Сороуер, Мохаммад С. " Литературное исследование по алгоритмам многокомпонентного обучения". Государственный университет Орегона, Корваллис (2010).
источник
accuracy
меры, как вы элегантно обрабатывает случаи, когда знаменатель|Y + Z| == 0
?Потеря Хемминга, вероятно, является наиболее широко используемой функцией потерь в классификации по нескольким меткам.
Взгляните на эмпирические исследования по классификации с несколькими метками и классификации с несколькими метками: обзор , которые оба обсуждают это.
источник
Correctly Predicted
является пересечением между набором предлагаемых меток и набором ожидаемых.Total Instances
это объединение наборов выше (без учета дубликатов).Итак, приведем один пример, в котором вы предсказываете классы,
A, G, E
а тестовый пример имеетE, A, H, P
правильныеAccuracy = Intersection{(A,G,E), (E,A,H,P)} / Union{(A,G,E), (E,A,H,P)} = 2 / 5
источник