У меня есть данные с двумя классами, для которых я выполняю классификацию, используя несколько классификаторов. И наборы данных хорошо сбалансированы. Оценивая работу классификаторов, я должен учитывать, насколько точен классификатор при определении не только истинных положительных моментов, но и истинных отрицательных. Поэтому, если я использую точность, и если классификатор смещен в сторону положительных значений и классифицирует все как положительные, я получу точность около 50%, даже при том, что он не смог классифицировать истинные отрицательные значения. Это свойство распространяется на точность и отзыв, поскольку они сосредоточены только на одном классе, и, в свою очередь, на счет F1. (Это то, что я понимаю даже из этой статьи, например, « За пределами точности, F-показателя и ROC: семейство дискриминантных мер для оценки эффективности »).
Поэтому я могу использовать чувствительность и специфичность (TPR и TNR), чтобы увидеть, как классификатор выполняется для каждого класса, где я стремлюсь максимизировать эти значения.
Мой вопрос заключается в том, что я ищу меру, которая объединяет обе эти ценности в одну значимую меру . Я посмотрел на меры, представленные в этом документе, но я нашел, что это нетривиально. И, основываясь на моем понимании, мне было интересно, почему мы не можем применить что-то вроде F-показателя, но вместо использования точности и отзыва я бы использовал чувствительность и специфичность? Таким образом, формула будет и моя цель будет максимизировать эта мера. Я нахожу это очень представительным. Уже есть подобная формула? И имеет ли это смысл или это даже математически правильно?
Точность классификации, чувствительность, специфичность и любая простая их комбинация - все это неправильные правила оценки. То есть они оптимизированы фиктивной моделью. Их использование заставит вас выбирать неправильные функции, давать неправильные веса и принимать неоптимальные решения. Одним из многих способов принятия решений неоптимальных является ложная уверенность, которую вы получаете, когда прогнозируемые вероятности близки к порогу, предполагаемому использованием этих показателей. Короче говоря, все, что может пойти не так с этими мерами. Использование их для сравнения даже двух хорошо подогнанных моделей может ввести вас в заблуждение.
источник