Является ли AUC вероятностью правильной классификации случайно выбранного экземпляра из каждого класса?

11

Я прочитал эту подпись в газете и никогда не видел, чтобы AUC описывали таким образом где-либо еще. Это правда? Есть ли доказательство или простой способ увидеть это?

На рис. 2 показана точность прогнозирования дихотомических переменных, выраженная в терминах площади под кривой рабочих характеристик приемника (AUC), которая эквивалентна вероятности правильной классификации двух случайно выбранных пользователей, по одному из каждого класса (например, мужчины и женщины). ).

Мне кажется, что это не может быть правдой, так как для AUC = 0,5 из вышесказанного можно предположить, что с вероятностью 50% правильно предсказать бросок монеты два раза подряд, но в действительности у вас есть только 25% -ый шанс. правильного предсказания двух монетных бросков подряд. По крайней мере, так я думаю об этом утверждении.

thecity2
источник
1
Я ценю концепцию, выраженную в названии, в любом случае, не совсем правильную, но, чтобы соответствовать цитате, не должна ли она сказать «вероятность правильной классификации ...», а не просто «вероятность классификации»? Это смутило меня, когда я впервые прочитал это.
Серебряная
1
Это был уже достаточно длинный заголовок! Я на самом деле подумал добавить «правильно» верить этому или нет. :)
thecity2

Ответы:

14

Цитата немного неверна. Правильным утверждением является то, что ROC AUC - это вероятность того, что случайно выбранный положительный пример оценивается выше, чем случайно выбранный отрицательный пример. Это связано с взаимосвязью между ROC AUC и тестом рангов Уилкоксона.

Вы найдете обсуждение в Томе Фосетте « Введение в анализ ROC ».

Sycorax говорит восстановить Монику
источник
8

Описание автора не совсем точно. Площадь под кривой ROC фактически равна вероятности того, что случайно выбранный положительный пример имеет более высокую оценку риска, чем у случайно выбранного отрицательного примера. Это не обязательно имеет отношение к классификации, это просто мера разделения между оценками.

Для вашего примера с монетами представьте, что у вас есть две монеты, и с каждой из них связан счет. Затем вы подбрасываете обе монеты до тех пор, пока одна из них не поднимется головой, а другая - хвостом (поскольку мы обусловливаем разные результаты). Это эквивалентно наличию модели, которая делает случайный выигрыш, и вероятность того, что монета, которая выпала в голову, имеет более высокий (или более низкий) показатель, составляет 1/2.

dsaxton
источник
2

Прочитанное вами описание верно, хотя мне не нравится его формулировка. Область под кривой ROC (AUC) - это вероятность правильной классификации случайной пары особей в класс 1 из класса 2. Это статистика на основе рангов, так что если вам нужно было угадать, ранжируется ли один человек в паре выше, чем с другой стороны, это только 50% шанс, если угадать наугад. AUC идентична [1] статистике теста рангового ранга Уилкоксона, и это можно использовать для иллюстрации ее значения.

[1]: Mason & Graham (2002). Области под кривыми относительных рабочих характеристик (ROC) и относительных рабочих уровней (ROL): статистическая значимость и интерпретация. Ежеквартальный журнал Королевского метеорологического общества. 128: 2145–2166.

prince_of_pears
источник
1

Как отмечали другие, AUC выражает вероятность того, что случайно выбранный пример из положительного класса получит от классификатора более высокий балл, чем случайно выбранный пример из отрицательного класса.

Для доказательства этого свойства см .: Как вывести математическую формулу для AUC?

Или источник, использованный для этого ответа: D. Hand, 2009, Измерение эффективности классификатора: последовательная альтернатива области под кривой ROC

alebu
источник