Данный
- набор данных с экземплярами вместе с классами, где каждый экземпляр принадлежит ровно одному классу
- мультиклассовый классификатор
После обучения и тестирования у меня в основном есть таблица с истинным классом и прогнозируемым классом для каждого экземпляра в наборе тестов. Так что для каждого случая у меня есть либо совпадение ( ), либо промах ( ).
Как я могу оценить качество матча? Проблема состоит в том, что некоторые классы могут иметь много членов, то есть много экземпляров принадлежат ему. Очевидно, что если 50% всех точек данных принадлежат одному классу, а мой окончательный классификатор в целом верен на 50%, я ничего не получил. С таким же успехом я мог бы создать тривиальный классификатор, который выводит этот самый большой класс, независимо от того, что вводит.
Существует ли стандартный метод оценки качества классификатора на основе известных результатов тестирования совпадений и совпадений для каждого класса? Может быть, даже важно различать показатели соответствия для каждого конкретного класса?
Самый простой подход, который я могу придумать, состоит в том, чтобы исключить правильные совпадения самого большого класса. Что-то еще?
Ответы:
Как и двоичная классификация, вы можете использовать эмпирическую частоту ошибок для оценки качества вашего классификатора. Пусть будет классификатором, а x i и y i будут соответственно примером в вашей базе данных и ее классе. e r r ( g ) = 1g xi yi
как вы сказали, когда классы несбалансированные, базовый уровень не 50%а доля большего класса. Вы можете добавить вес в каждом классе, чтобы сбалансировать ошибку. ПустьWy- вес классаy. Установите веса так, чтобы1
Как сказал Штеффен, путаница может быть хорошим способом оценки качества классификатора. В двоичном случае вы можете получить некоторую меру из этой матрицы, такую как чувствительность и специфичность, оценивая способность классификатора обнаруживать конкретный класс. Источником ошибки классификатора может быть конкретный способ. Например, классификатор может быть слишком уверенным при прогнозировании 1, но никогда не говорить неверно при прогнозировании 0. Многие классификаторы могут быть параметризованы для управления этой скоростью (ложные срабатывания по сравнению с ложными отрицаниями), и тогда вас интересует качество вся семья классификаторов, а не одна. Отсюда вы можете построить кривую ROC , а измерение площади под кривой ROC даст вам качество этих классификаторов.
Кривые ROC могут быть расширены для вашей задачи мультикласса. Предлагаю вам прочитать ответ этой ветки .
источник
Для оценки систем многостраничной классификации текста я использую микро- и макро-усредненные F1 (F-мера). F-мера - это взвешенная комбинация точности и напомним это. Для бинарной классификации, микро и макро подходы одинаковы, но я думаю, что в случае с несколькими путями они могут вам помочь. Вы можете думать о Micro F1 как о взвешенной комбинации точности и отзыва, которая придает равный вес каждому документу, в то время как Macro F1 дает одинаковый вес каждому классу. Для каждого уравнение F-меры одинаково, но вы вычисляете точность и вызываете по-разному:
источник
источник