AIC и c-статистика пытаются ответить на разные вопросы. (Также некоторые проблемы с c-статистикой были подняты в последние годы, но я остановлюсь на этом в стороне)
Грубо говоря:
- AIC говорит вам, насколько хорошо ваша модель подходит для конкретной стоимости неправильной классификации.
- AUC говорит вам, насколько хорошо ваша модель будет работать в среднем по всем затратам на неправильную классификацию.
Когда вы вычисляете AIC, вы рассматриваете свою логистику, давая прогноз, скажем, 0,9, как прогноз 1 (то есть, скорее всего, 1, чем 0), однако это не обязательно. Вы можете взять свой балл за логистику и сказать: «все, что выше 0,95, равно 1, все, что ниже, равно 0». Зачем ты это делаешь? Что ж, это гарантирует, что вы предсказываете только один, когда вы действительно уверены в себе. Ваш уровень ложных срабатываний будет действительно очень низким, но ваш ложный отрицательный результат будет стремительно расти. В некоторых ситуациях это не так уж и плохо - если вы собираетесь обвинить кого-то в мошенничестве, вы, вероятно, сначала хотите быть по-настоящему уверенным. Кроме того, если следить за положительными результатами очень дорого, то вам не нужно их слишком много.
Вот почему это связано с затратами. Существует стоимость, когда вы классифицируете 1 как 0, и стоимость, когда вы классифицируете 0 как 1. Как правило (при условии, что вы использовали настройку по умолчанию), AIC для логистической регрессии относится к особому случаю, когда обе ошибочные классификации одинаково дорогостоящий. То есть логистическая регрессия дает вам наилучшее общее количество правильных прогнозов, без какого-либо предпочтения положительного или отрицательного.
Кривая ROC используется, потому что это отображает истинный положительный результат против ложного положительного, чтобы показать, как классификатор будет работать, если вы используете его при других требованиях к стоимости. С-статистика возникает потому, что любая кривая ROC, которая лежит строго выше другой, является явно доминирующим классификатором. Поэтому интуитивно понятно измерить площадь под кривой как показатель того, насколько хорош классификатор в целом.
В общем, если вы знаете свои затраты при подборе модели, используйте AIC (или аналогичный). Если вы просто строите оценку, но не указываете диагностический порог, то необходимы подходы AUC (со следующим предупреждением о самом AUC).
Так что же не так с c-статистикой / AUC / Gini?
В течение многих лет AUC был стандартным подходом и все еще широко используется, однако с ним связан ряд проблем. Одна вещь, которая сделала его особенно привлекательным, состояло в том, что он соответствует тесту Уилкокса в рядах классификаций. То есть он измерял вероятность того, что оценка случайно выбранного члена одного класса будет выше, чем случайно выбранного члена другого класса. Проблема в том, что это почти никогда не полезный показатель.
Наиболее серьезные проблемы с AUC были опубликованы Дэвидом Хендом несколько лет назад. (См. Ссылки ниже). Суть проблемы заключается в том, что, хотя AUC усредняется по всем затратам, поскольку ось х кривой ROC представляет собой ложную положительную норму, вес, который она назначает различным режимам затрат, варьируется между классификаторами. Таким образом, если вы вычислите AUC для двух разных логических регрессий, это не будет измерять «одно и то же» в обоих случаях. Это означает, что нет смысла сравнивать модели на основе AUC.
Хэнд предложил альтернативное вычисление, используя взвешивание по фиксированной стоимости, и назвал это H-мерой - в R есть пакет, hmeasure
который будет выполнять это вычисление, и я полагаю, что AUC для сравнения.
Некоторые ссылки на проблемы с AUC:
Когда область под кривой рабочих характеристик приемника является подходящей мерой работы классификатора? DJ Hand, C. Anagnostopoulos Письма о распознавании образов 34 (2013) 492–495
(Я нашел это особенно доступным и полезным объяснением)
Упомянутая ручная статья не имеет практического применения в клинической диагностике. У него есть теоретическая кривая с 0,5 AUC, которая вместо этого является идеальным классификатором. Он использует единый набор данных реального мира, где модели будут выброшены из-под контроля, поскольку они настолько плохи, и когда учет доверительных интервалов вокруг измерений (данные не предоставлены, но выведены), вероятно, будет случайным , Учитывая отсутствие реальных данных (или даже правдоподобных данных моделирования), это пустая статья. Я лично принимал участие в анализе тысяч классификаторов среди тысяч пациентов (с достаточными степенями свободы). В этом контексте его аргументы бессмысленны.
Он также склонен к превосходной степени (не очень хороший знак в любом контексте) и делает неподдерживаемые обобщения, например, стоимость не может быть известна. В медицине существуют приемлемые затраты, такие как 10% -ная положительная прогностическая ценность для скрининговых тестов и 100 000 долл. США на год жизни с поправкой на качество для терапевтических вмешательств. Мне трудно поверить в то, что в кредитном скоринге затраты не совсем понятны. Если он говорит (неясно), что разные отдельные ложные срабатывания и ложные отрицания несут разные затраты, хотя это очень интересная тема, она не похожа на двоичные классификаторы.
Если он считает, что форма ROC имеет значение, то для искушенных пользователей это очевидно, и у неискушенных пользователей есть гораздо больше поводов для беспокойства, например, включение распространенности в положительные и отрицательные прогностические значения.
Наконец, я не могу понять, как нельзя судить о различных классификаторах на основе различных реальных ограничений, определяемых клиническим (или финансовым) использованием моделей. Очевидно, что для каждой модели будут выбраны разные срезы. Модели не будут сравниваться на основе только AUC. Классификаторы не имеют значения, но форма кривой имеет значение.
источник
Для меня суть в том, что хотя C-статистика (AUC) может быть проблематичной при сравнении моделей с различными независимыми переменными (аналогично тому, что Hand называет «классификаторами»), она все еще полезна в других приложениях. Например, валидационные исследования, в которых сравнивается одна и та же модель для разных групп населения (наборы данных). Если показано, что модель или индекс / оценка риска являются в высокой степени дискриминирующими в одной популяции, но не в других, это может означать, что это не очень хороший инструмент в целом, но может иметь место в конкретных случаях.
источник