TL; DR
Точность является неправильным правилом подсчета очков. Не используйте это.
Немного длиннее версия
На самом деле, точность даже не является правилом оценки. Поэтому вопрос о том, является ли он (строго) правильным, является ошибкой категории. Самое большее, что мы можем сказать, это то, что при дополнительных допущениях точность соответствует правилу подсчета очков, которое является неправильным, прерывистым и вводящим в заблуждение. (Не используйте это.)
Ваше замешательство
Ваша путаница проистекает из того факта, что потеря неправильной классификации согласно цитируемой вами статье также не является правилом оценки.
Детали: правила оценки и оценки классификации
Давайте исправим терминологию. Нас интересует двоичный результат , и мы имеем вероятностный прогноз . Мы знаем, что , но наша модель может знать или не знать это.д = Р ( Y = 1 ) ∈ (Y∈ { 0 , 1 }Р ( Y = 1 ) = η > 0,5 квQˆ= Pˆ( Y= 1 ) ∈ ( 0 , 1 )п( Y= 1 ) = η> 0,5Qˆ
Правило скоринга является отображением , которое принимает вероятностный прогноз и исход к потере, уQˆY
s : ( qˆ, у) ↦ s ( квˆ, у) .
s является правильным , если он оптимизирован в ожидании от . ( «Оптимизированный» обычно означает «сведено к минимуму», но некоторые авторы флип признаки и пытаются максимизировать правило подсчета очков.) является строго собственно , если он оптимизирован в ожидании только от .s д =ηQˆ= ηsQˆ= η
Как правило, мы будем оценивать по многим прогнозам и соответствующим результатам и среднему чтобы оценить это ожидание.sQˆяYя
Теперь, что такое точность ? Точность не принимает вероятностный прогноз в качестве аргумента. Он принимает классификациюyˆ∈{0,1} и результат:
a:(yˆ,y)↦a(yˆ,y)={1,0,yˆ=yyˆ≠y.
Следовательно, точность не является правилом оценки . Это классификационная оценка. (Это термин, который я только что изобрел; не ищите его в литературе.)
Теперь, конечно, мы можем взять вероятностный прогноз, подобный нашему и превратить его в классификацию . Но для этого нам понадобятся дополнительные предположения, упомянутые выше. Например, очень часто используют порог и классифицируют:qˆyˆθ
yˆ(qˆ,θ):={1,0,qˆ≥θqˆ<θ.
Очень распространенное пороговое значение равно . Обратите внимание, что если мы используем этот порог и затем оцениваем точность по многим прогнозам (как указано выше) и соответствующим результатам , то мы приходим именно к потере из-за неправильной классификации согласно Buja et al. Таким образом, ошибочная классификация также является не правилом оценки, а оценочной классификацией.θ=0.5qˆiyi
Если мы возьмем алгоритм классификации, подобный приведенному выше, мы можем превратить оценку классификации в правило оценки. Дело в том, что нам нужны дополнительные предположения классификатора. И эта потеря точности или неправильной классификации или любая другая классификационная оценка, которую мы выбираем, может тогда меньше зависеть от вероятностного прогноза и больше от того, как мы превращаем в классификацию . Таким образом, оптимизация оценки классификации может преследовать красную сельдь, если мы действительно заинтересованы в оценке . д у =qˆqˆyˆ=yˆ(qˆ,θ)qˆ
Теперь, что неуместно в этих предположениях о правилах подсчета при дополнительных допущениях? Ничего, в данном случае. при неявном максимизирует точность и минимизирует потери от неправильной классификации по всем возможным . Так что в этом случае наши правила подсчета очков под дополнительными допущениями верны.qˆ=ηθ=0.5qˆ∈(0,1)
Обратите внимание, что для потери точности или неправильной классификации важен только один вопрос: классифицируем ли мы ( ) все как мажоритарный класс или нет? yˆЕсли мы это сделаем, точность или потеря классификации будут счастливы. Если нет, то нет. Что важно в этом вопросе, так это то, что он имеет очень слабую связь с качеством .qˆ
Следовательно, наши предположения о правилах подсчета под дополнительными допущениями не являются строго правильными, так как любая приведет к такой же классификации классификации. Мы могли бы использовать стандарт , полагать, что класс большинства встречается с и классифицировать все как класс большинства, потому что . Точность высока, но у нас нет стимула улучшать наш до правильного значения .thetas=0,5 кв =0,99qˆ≥θθ=0.5qˆ=0.99 ; д ηqˆ≥θqˆη
Или мы могли бы провести обширный анализ асимметричных затрат на ошибочную классификацию и решили, что наилучший порог вероятности классификации должен быть . Например, это может произойти, если означает, что вы страдаете от какой-то болезни. Возможно, было бы лучше лечить вас, даже если вы не страдаете от этой болезни ( ), а не наоборот, так что может иметь смысл лечить людей, даже если вероятность предсказания мала (small ) они страдают от этого. Тогда у нас может быть ужасно неправильная модель, которая считает, что класс истинного большинства имеет место только су = 1 у = 0 дθ=0.2y=1y=0qˆ кв ≥thetasqˆ=0.25- но из-за неправильной классификации мы все равно классифицируем все как этот (предполагаемый) класс меньшинства, потому что опять . Если бы мы это сделали, потеря точности или неправильной классификации заставила бы нас поверить, что мы все делаем правильно, даже если наша прогнозная модель даже не поймет, какой из двух наших классов является мажоритарным.qˆ≥θ
Следовательно, потеря точности или ошибочной классификации может вводить в заблуждение.
Кроме того, потеря точности и неправильная классификация являются ненадлежащими в соответствии с дополнительными допущениями в более сложных ситуациях, когда результаты не определены. Фрэнк Харрелл в своем сообщении в блоге « Ущерб, вызванный точностью классификации и другими прерывистыми правилами неправильной оценки точности», приводит пример из одной из своих книг, где использование потери точности или ошибочной классификации приведет к неверно определенной модели, поскольку они не оптимизируются с помощью правильного условного предсказания. вероятность.
Другая проблема, связанная с потерями точности и неправильной классификации, заключается в том, что они являются прерывистыми в зависимости от порога . Фрэнк Харрелл тоже занимается этим.θ
Дополнительную информацию можно найти в разделе Почему точность не является наилучшей мерой для оценки моделей классификации? ,
Суть
Не используйте точность. Ни потеря классификации.
Ниппик: «строгий» против «строго»
Должны ли мы говорить о «строгих» правильных правилах оценки или о «строго» правильных правилах оценки? «Строгий» изменяет «правильное», а не «правило подсчета очков». (Существуют «правильные правила оценки» и «строго правильные правила оценки», но нет «строгих правил оценки».) Таким образом, «строго» должно быть наречием, а не прилагательным, и следует использовать «строго». Как это чаще встречается в литературе, например, работы Тильмана Гнейтинга.