Показатель эффективности классификатора, который сочетает в себе чувствительность и специфичность?

9

У меня есть данные с двумя классами, для которых я выполняю классификацию, используя несколько классификаторов. И наборы данных хорошо сбалансированы. Оценивая работу классификаторов, я должен учитывать, насколько точен классификатор при определении не только истинных положительных моментов, но и истинных отрицательных. Поэтому, если я использую точность, и если классификатор смещен в сторону положительных значений и классифицирует все как положительные, я получу точность около 50%, даже при том, что он не смог классифицировать истинные отрицательные значения. Это свойство распространяется на точность и отзыв, поскольку они сосредоточены только на одном классе, и, в свою очередь, на счет F1. (Это то, что я понимаю даже из этой статьи, например, « За пределами точности, F-показателя и ROC: семейство дискриминантных мер для оценки эффективности »).

Поэтому я могу использовать чувствительность и специфичность (TPR и TNR), чтобы увидеть, как классификатор выполняется для каждого класса, где я стремлюсь максимизировать эти значения.

Мой вопрос заключается в том, что я ищу меру, которая объединяет обе эти ценности в одну значимую меру . Я посмотрел на меры, представленные в этом документе, но я нашел, что это нетривиально. И, основываясь на моем понимании, мне было интересно, почему мы не можем применить что-то вроде F-показателя, но вместо использования точности и отзыва я бы использовал чувствительность и специфичность? Таким образом, формула будет и моя цель будет максимизировать эта мера. Я нахожу это очень представительным. Уже есть подобная формула? И имеет ли это смысл или это даже математически правильно?

my Performance Measure=2sensitivityspecificitysensitivity+specificity
Kalaji
источник

Ответы:

1

Я бы сказал, что не может быть какой-то конкретной или единственной меры, которую вы должны принять во внимание.

В прошлый раз, когда я делал вероятностную классификацию, у меня был ROCR R-пакета и явные значения затрат для ложных положительных и отрицательных отрицательных значений.

Я рассмотрел все точки отсечения от 0 до 1 и использовал много мер, таких как ожидаемая стоимость, при выборе этой точки отсечения. Конечно, у меня уже была мера AUC для общей оценки точности классификации. Но для меня это была не единственная возможность.

Значения для случаев FP и FN должны выходить за пределы вашей конкретной модели, может быть, они предоставлены каким-либо предметным экспертом?

Например, при анализе оттока клиентов может быть дороже сделать неверный вывод о том, что клиент не отрабатывает, но также будет дорого общее снижение цен на услуги без точности нацеливания на правильные группы.

-Аналитик

Аналитик
источник
На самом деле для моего случая это похоже. Потому что случаи с FP и FN в моей модели будут дорогостоящими. В конце концов я сделал нечто похожее на то, что вы предложили, «используя несколько мер». Я рассчитал F-показатель для каждой метки класса, и для оценки моделей я использую оба эти значения вместе с некоторой функцией стоимости, которая использует точность (для обоих классов) для расчета прибыли и вычитает из нее потери, понесенные в случаях FP и FN.
Каладжи
3

Точность классификации, чувствительность, специфичность и любая простая их комбинация - все это неправильные правила оценки. То есть они оптимизированы фиктивной моделью. Их использование заставит вас выбирать неправильные функции, давать неправильные веса и принимать неоптимальные решения. Одним из многих способов принятия решений неоптимальных является ложная уверенность, которую вы получаете, когда прогнозируемые вероятности близки к порогу, предполагаемому использованием этих показателей. Короче говоря, все, что может пойти не так с этими мерами. Использование их для сравнения даже двух хорошо подогнанных моделей может ввести вас в заблуждение.

Фрэнк Харрелл
источник
1
Я согласен, что любая сгенерированная модель является "фиктивной моделью", как вы упомянули. Но все же мне нужна мера, чтобы оценить ее качество, выбрать модель в конце концов. Предполагая, что мои функции уже были выбраны (пробуя несколько наборов данных с различными наборами функций), и я использую 5-кратную перекрестную проверку, чтобы определить, соответствуют ли мои классификаторы данным, эти простые «правила оценки» являются наиболее широко используется в литературе. Какие другие меры вы бы предложили тогда? Большинство мер основаны на комбинации этих значений, включая LR +/-, ROC и AUC.
Каладжи
Прежде всего, стараетесь ли вы с нуля повторить все этапы исследования / моделирования для каждого из 5 подгонок моделей, используемых в 5-кратном резюме? Показатель качества золотого стандарта - это логарифмическая правдоподобие и полученные из него величины, такие как и отклонение. Для двоичного это приводит к правилу логарифмической оценки вероятности. Для этого случая вы также можете использовать другую правильную оценку, оценку Бриера (среднеквадратическая ошибка в прогнозируемых вероятностях). YR2Y
Фрэнк Харрелл
Основываясь на моем чтении, это применимо в том случае, если мои модели генерируют вероятности, а не дискретные значения (т. Е. Вероятность того, что экземпляр принадлежит классу 0 или 1 вместо вывода 0 или 1). И, в свою очередь, это было связано с реализацией классификаторов, например, это относится к наивному байесовскому классификатору, но не к классификатору 1-NN. Обратите внимание, что я не реализую классификаторы, я использую некоторые классификаторы в Weka для генерации моих моделей. Может быть, я немного смущен здесь. Спасибо.
Каладжи
1
Если метод, который вы используете, не дает вероятностей, я предлагаю найти другой метод.
Фрэнк Харрелл
Если существуют четкие различия между фактической стоимостью точности и чувствительностью (не применимо к оригинальному сообщению), почему бы вам не использовать их? Будет ли предпочтительной смещенная перекрестная энтропийная ошибка (например, штраф за член (1-c) * log (1-p) удваивается)?
Макс Кандокия