Связи между (d-prime) и AUC (область под кривой ROC); скрытые предположения

13

В машинном обучении мы можем использовать область под кривой ROC (часто сокращенно AUC или AUROC), чтобы суммировать, насколько хорошо система может различать две категории. В теории обнаружения сигналов часто (индекс чувствительности) используется для аналогичной цели. Эти два тесно связаны, и я считаю, что они эквивалентны друг другу, если определенные предположения будут выполнены .d

расчет, как правило , представлен на основе предположения нормальных распределений для распределений сигналов (см википедии ссылки выше, например). Расчет кривой ROC не делает этого предположения: он применим к любому классификатору, который выводит критерий непрерывного решения, который может быть пороговым.d

Википедия говорит , что эквивалентно . Это кажется правильным, если предположения обоих выполнены; но если предположения не совпадают, это не универсальная правда.d2AUC1

Справедливо ли характеризовать разницу в допущениях как «AUC делает меньше допущений относительно базовых распределений»? Или самом деле так же широко применим, как AUC, но это просто обычная практика, когда люди, использующие склонны использовать вычисления, которые предполагают нормальное распределение? Есть ли другие различия в базовых предположениях, которые я пропустил?dd

Дэн Стоуэлл
источник

Ответы:

7

Нет. Максимальное значение AUC равно 1. d 'не имеет максимума.

Я полагаю, что d 'равно qnorm (AUC) * sqrt (2) (моя память о старой книге статистики, которую я не могу найти прямо сейчас, но, кажется, проверяет некоторые данные, которые я нашел в сети). Здесь qnorm (x) - это «квантильная функция для нормального распределения» (R-говорить). Таким образом, он возвращает значение нормального распределения, для которого доля x распределения ниже его.

Джоэл Лахтер
источник
2
Спасибо, это звучит правильно для меня - однако, только если мы предполагаем, что распределение нормальное (из-за использования qnorm ()). Я исправил формулировку википедии.
Дэн Стоуэлл