Какая разница в том, что AIC и c-статистика (AUC) фактически измеряют для подгонки модели?

29

Информационный критерий Акаике (AIC) и c-статистика (площадь под кривой ROC) являются двумя показателями модели, пригодными для логистической регрессии. У меня возникают проблемы с объяснением того, что происходит, когда результаты двух измерений не совпадают. Я предполагаю, что они измеряют немного различные аспекты подгонки модели, но каковы эти конкретные аспекты?

У меня есть 3 модели логистической регрессии. Модель M0 имеет несколько стандартных ковариат. Модель M1 добавляет X1 к M0; модель M2 добавляет X2 к M0 (поэтому M1 и M2 не являются вложенными).

Разница в AIC от M0 до M1 и M2 составляет около 15, что указывает на то, что X1 и X2 улучшают подгонку модели и примерно на одинаковую величину.

c-статистика: M0 0,70; М1 0,73; М2 0,72. Разница в c-статистике от M0 до M1 значительна (метод ДеЛонга и др., 1988), но разница от M0 до M2 незначительна, что указывает на то, что X1 улучшает подгонку модели, а X2 - нет.

Х1 обычно не собирается. Предполагается, что Х2 обычно собирается, но отсутствует примерно в 40% случаев. Мы хотим решить, начать ли собирать X1, или улучшить сбор X2, или отбросить обе переменные.

Из AIC мы заключаем, что переменные вносят аналогичные улучшения в модель. Вероятно, проще улучшить сбор X2, чем начинать сбор совершенно новой переменной (X1), поэтому мы стремимся улучшить сбор X2. Но из c-статистики X1 улучшает модель, а X2 - нет, поэтому мы должны забыть о X2 и начать собирать X1.

Поскольку наша рекомендация зависит от того, на какой статистике мы ориентируемся, нам необходимо четко понимать разницу в том, что они измеряют.

Любые советы приветствуются.

timbp
источник

Ответы:

25

AIC и c-статистика пытаются ответить на разные вопросы. (Также некоторые проблемы с c-статистикой были подняты в последние годы, но я остановлюсь на этом в стороне)

Грубо говоря:

  • AIC говорит вам, насколько хорошо ваша модель подходит для конкретной стоимости неправильной классификации.
  • AUC говорит вам, насколько хорошо ваша модель будет работать в среднем по всем затратам на неправильную классификацию.

Когда вы вычисляете AIC, вы рассматриваете свою логистику, давая прогноз, скажем, 0,9, как прогноз 1 (то есть, скорее всего, 1, чем 0), однако это не обязательно. Вы можете взять свой балл за логистику и сказать: «все, что выше 0,95, равно 1, все, что ниже, равно 0». Зачем ты это делаешь? Что ж, это гарантирует, что вы предсказываете только один, когда вы действительно уверены в себе. Ваш уровень ложных срабатываний будет действительно очень низким, но ваш ложный отрицательный результат будет стремительно расти. В некоторых ситуациях это не так уж и плохо - если вы собираетесь обвинить кого-то в мошенничестве, вы, вероятно, сначала хотите быть по-настоящему уверенным. Кроме того, если следить за положительными результатами очень дорого, то вам не нужно их слишком много.

Вот почему это связано с затратами. Существует стоимость, когда вы классифицируете 1 как 0, и стоимость, когда вы классифицируете 0 как 1. Как правило (при условии, что вы использовали настройку по умолчанию), AIC для логистической регрессии относится к особому случаю, когда обе ошибочные классификации одинаково дорогостоящий. То есть логистическая регрессия дает вам наилучшее общее количество правильных прогнозов, без какого-либо предпочтения положительного или отрицательного.

Кривая ROC используется, потому что это отображает истинный положительный результат против ложного положительного, чтобы показать, как классификатор будет работать, если вы используете его при других требованиях к стоимости. С-статистика возникает потому, что любая кривая ROC, которая лежит строго выше другой, является явно доминирующим классификатором. Поэтому интуитивно понятно измерить площадь под кривой как показатель того, насколько хорош классификатор в целом.

В общем, если вы знаете свои затраты при подборе модели, используйте AIC (или аналогичный). Если вы просто строите оценку, но не указываете диагностический порог, то необходимы подходы AUC (со следующим предупреждением о самом AUC).

Так что же не так с c-статистикой / AUC / Gini?

В течение многих лет AUC был стандартным подходом и все еще широко используется, однако с ним связан ряд проблем. Одна вещь, которая сделала его особенно привлекательным, состояло в том, что он соответствует тесту Уилкокса в рядах классификаций. То есть он измерял вероятность того, что оценка случайно выбранного члена одного класса будет выше, чем случайно выбранного члена другого класса. Проблема в том, что это почти никогда не полезный показатель.

Наиболее серьезные проблемы с AUC были опубликованы Дэвидом Хендом несколько лет назад. (См. Ссылки ниже). Суть проблемы заключается в том, что, хотя AUC усредняется по всем затратам, поскольку ось х кривой ROC представляет собой ложную положительную норму, вес, который она назначает различным режимам затрат, варьируется между классификаторами. Таким образом, если вы вычислите AUC для двух разных логических регрессий, это не будет измерять «одно и то же» в обоих случаях. Это означает, что нет смысла сравнивать модели на основе AUC.

Хэнд предложил альтернативное вычисление, используя взвешивание по фиксированной стоимости, и назвал это H-мерой - в R есть пакет, hmeasureкоторый будет выполнять это вычисление, и я полагаю, что AUC для сравнения.

Некоторые ссылки на проблемы с AUC:

  • Когда область под кривой рабочих характеристик приемника является подходящей мерой работы классификатора? DJ Hand, C. Anagnostopoulos Письма о распознавании образов 34 (2013) 492–495

    (Я нашел это особенно доступным и полезным объяснением)

Corone
источник
Это был тот, который я искал - да, это был ключевой первый документ по этому вопросу (хотя я думаю, что он, следовательно, нацелен на более техническую аудиторию, чем некоторые из более поздних статей).
Corone
3
р2
Меня смущает ответ Короне, я думал, что AIC не имеет ничего общего с прогнозирующей эффективностью модели и что это всего лишь мера вероятности обмена данными со сложностью модели.
Жубарб
@Berkan не уверен, что вы подразумеваете под «ничего общего с прогностической эффективностью», разве вы просто подразумеваете, что это мера в выборке, а не выборка? (Чем выше вероятность, тем лучше он «прогнозирует» эти точки данных). Дело в том, что AIC предназначена для определенной, предварительно выбранной функции правдоподобия, тогда как AIC является средним значением по набору из них. Если вы знаете вероятность (т.е. порог, затраты, распространенность ...), то вы можете использовать AIC.
Корона
3

Упомянутая ручная статья не имеет практического применения в клинической диагностике. У него есть теоретическая кривая с 0,5 AUC, которая вместо этого является идеальным классификатором. Он использует единый набор данных реального мира, где модели будут выброшены из-под контроля, поскольку они настолько плохи, и когда учет доверительных интервалов вокруг измерений (данные не предоставлены, но выведены), вероятно, будет случайным , Учитывая отсутствие реальных данных (или даже правдоподобных данных моделирования), это пустая статья. Я лично принимал участие в анализе тысяч классификаторов среди тысяч пациентов (с достаточными степенями свободы). В этом контексте его аргументы бессмысленны.

Он также склонен к превосходной степени (не очень хороший знак в любом контексте) и делает неподдерживаемые обобщения, например, стоимость не может быть известна. В медицине существуют приемлемые затраты, такие как 10% -ная положительная прогностическая ценность для скрининговых тестов и 100 000 долл. США на год жизни с поправкой на качество для терапевтических вмешательств. Мне трудно поверить в то, что в кредитном скоринге затраты не совсем понятны. Если он говорит (неясно), что разные отдельные ложные срабатывания и ложные отрицания несут разные затраты, хотя это очень интересная тема, она не похожа на двоичные классификаторы.

Если он считает, что форма ROC имеет значение, то для искушенных пользователей это очевидно, и у неискушенных пользователей есть гораздо больше поводов для беспокойства, например, включение распространенности в положительные и отрицательные прогностические значения.

Наконец, я не могу понять, как нельзя судить о различных классификаторах на основе различных реальных ограничений, определяемых клиническим (или финансовым) использованием моделей. Очевидно, что для каждой модели будут выбраны разные срезы. Модели не будут сравниваться на основе только AUC. Классификаторы не имеют значения, но форма кривой имеет значение.

user162905
источник
-1

Для меня суть в том, что хотя C-статистика (AUC) может быть проблематичной при сравнении моделей с различными независимыми переменными (аналогично тому, что Hand называет «классификаторами»), она все еще полезна в других приложениях. Например, валидационные исследования, в которых сравнивается одна и та же модель для разных групп населения (наборы данных). Если показано, что модель или индекс / оценка риска являются в высокой степени дискриминирующими в одной популяции, но не в других, это может означать, что это не очень хороший инструмент в целом, но может иметь место в конкретных случаях.

Дейв
источник
3
р2