В настоящее время я использую несколько различных классификаторов для различных сущностей, извлеченных из текста, и использую точность / отзыв в качестве сводки того, насколько хорошо работает каждый отдельный классификатор в данном наборе данных.
Мне интересно, есть ли реальный способ сравнения производительности этих классификаторов подобным образом, но который также учитывает общее количество каждого объекта в тестовых данных, которые классифицируются?
В настоящее время я использую точность / отзыв как меру производительности, поэтому может иметь что-то вроде:
Precision Recall
Person classifier 65% 40%
Company classifier 98% 90%
Cheese classifier 10% 50%
Egg classifier 100% 100%
Однако набор данных, на котором я работаю, может содержать 100 тыс. Человек, 5 тыс. Компаний, 500 сыров и 1 яйцо.
Так есть ли сводная статистика, которую я могу добавить к приведенной выше таблице, которая также учитывает общее количество каждого элемента? Или есть какой-то способ измерить тот факт, что, например, 100% предварительная / обратная запись по классификатору Egg может не иметь смысла только с одним элементом данных?
Допустим, у нас было сотни таких классификаторов, я думаю, что я ищу хороший способ ответить на вопросы типа «Какие классификаторы не работают? Какие классификаторы испытывают недостаток в достаточных тестовых данных, чтобы сказать, что они не выполняют?».
источник
Ответы:
Вам нужно взглянуть на доверительный интервал статистики. Это помогает измерить степень неопределенности в статистике, которая в значительной степени зависит от размера выборки.
источник
На мой взгляд, трудно сравнивать производительность, когда есть такая большая разница в размере. По этой ссылке (пожалуйста, проверьте это здесь, в Википедии http://en.wikipedia.org/wiki/Effect_size ), вы можете увидеть различные стратегии.
Тот, который я предлагаю, связан с дисперсией. Например, рассмотрим производительность классификатора (100%) и классификатора персонала (65%). Минимальная ошибка, которую вы совершаете с помощью первого классификатора, составляет 100%. Однако минимальная ошибка, которую вы можете совершить с помощью последнего классификатора, составляет 10e-5.
Поэтому один из способов сравнения классификатора - иметь в виду это правило трех ( http://en.wikipedia.org/wiki/Rule_of_three_(statistics), где вы можете сравнить производительность и ее изменчивость.
Другая возможность - это F-мера, которая представляет собой комбинацию Precision и Recall, и она каким-то образом не зависит от величины эффекта.
источник
Количество данных в классе иногда называют
support
классификатором. Он говорит, насколько вы можете доверять своему результату, например, значение p позволит вам доверять или не доверять какому-либо тесту.Один из подходов, который вы можете использовать, состоит в том, чтобы вычислить несколько показателей эффективности классификатора, не только точность и отзыв, но также истинно положительный показатель, ложноположительный показатель, специфичность, чувствительность, положительное правдоподобие, отрицательное правдоподобие и т. Д. И посмотреть, соответствуют ли они друг другу , Если одна из мер максимально (100%), а другая - нет, по моему опыту, это часто указывает на то, что что-то пошло не так (например, плохая поддержка, тривиальный классификатор, смещенный классификатор и т. Д.). Смотрите это для списка показателей эффективности классификатора.
источник