Я прочитал эту подпись в газете и никогда не видел, чтобы AUC описывали таким образом где-либо еще. Это правда? Есть ли доказательство или простой способ увидеть это?
На рис. 2 показана точность прогнозирования дихотомических переменных, выраженная в терминах площади под кривой рабочих характеристик приемника (AUC), которая эквивалентна вероятности правильной классификации двух случайно выбранных пользователей, по одному из каждого класса (например, мужчины и женщины). ).
Мне кажется, что это не может быть правдой, так как для AUC = 0,5 из вышесказанного можно предположить, что с вероятностью 50% правильно предсказать бросок монеты два раза подряд, но в действительности у вас есть только 25% -ый шанс. правильного предсказания двух монетных бросков подряд. По крайней мере, так я думаю об этом утверждении.
источник
Ответы:
Цитата немного неверна. Правильным утверждением является то, что ROC AUC - это вероятность того, что случайно выбранный положительный пример оценивается выше, чем случайно выбранный отрицательный пример. Это связано с взаимосвязью между ROC AUC и тестом рангов Уилкоксона.
Вы найдете обсуждение в Томе Фосетте « Введение в анализ ROC ».
источник
Описание автора не совсем точно. Площадь под кривой ROC фактически равна вероятности того, что случайно выбранный положительный пример имеет более высокую оценку риска, чем у случайно выбранного отрицательного примера. Это не обязательно имеет отношение к классификации, это просто мера разделения между оценками.
Для вашего примера с монетами представьте, что у вас есть две монеты, и с каждой из них связан счет. Затем вы подбрасываете обе монеты до тех пор, пока одна из них не поднимется головой, а другая - хвостом (поскольку мы обусловливаем разные результаты). Это эквивалентно наличию модели, которая делает случайный выигрыш, и вероятность того, что монета, которая выпала в голову, имеет более высокий (или более низкий) показатель, составляет 1/2.
источник
Прочитанное вами описание верно, хотя мне не нравится его формулировка. Область под кривой ROC (AUC) - это вероятность правильной классификации случайной пары особей в класс 1 из класса 2. Это статистика на основе рангов, так что если вам нужно было угадать, ранжируется ли один человек в паре выше, чем с другой стороны, это только 50% шанс, если угадать наугад. AUC идентична [1] статистике теста рангового ранга Уилкоксона, и это можно использовать для иллюстрации ее значения.
[1]: Mason & Graham (2002). Области под кривыми относительных рабочих характеристик (ROC) и относительных рабочих уровней (ROL): статистическая значимость и интерпретация. Ежеквартальный журнал Королевского метеорологического общества. 128: 2145–2166.
источник
Как отмечали другие, AUC выражает вероятность того, что случайно выбранный пример из положительного класса получит от классификатора более высокий балл, чем случайно выбранный пример из отрицательного класса.
Для доказательства этого свойства см .: Как вывести математическую формулу для AUC?
Или источник, использованный для этого ответа: D. Hand, 2009, Измерение эффективности классификатора: последовательная альтернатива области под кривой ROC
источник