Искал высоко и низко и не смог выяснить, что AUC, как в отношении прогноза, означает или означает.
classification
prediction
roc
auc
abbreviation
мистифицировать
источник
источник
auc
тега, который вы использовали: stats.stackexchange.com/questions/tagged/aucОтветы:
Сокращения
AUC используется в большинстве случаев для обозначения AUROC, что является плохой практикой, поскольку, как отметил Марк Клазен, AUC неоднозначен (может быть любой кривой), а AUROC - нет.
Интерпретация AUROC
AUROC имеет несколько эквивалентных интерпретаций :
Идем дальше: Как вывести вероятностную интерпретацию AUROC?
Вычисление AUROC
Предположим, у нас есть вероятностный двоичный классификатор, такой как логистическая регрессия.
Прежде чем представить кривую ROC (= кривая рабочих характеристик приемника), необходимо понять концепцию матрицы смешения . Когда мы делаем бинарный прогноз, может быть 4 типа результатов:
Чтобы получить матрицу путаницы, мы просматриваем все прогнозы, сделанные моделью, и подсчитываем, сколько раз происходит каждый из этих 4 типов результатов:
В этом примере матрицы путаницы среди 50 классифицированных точек данных 45 классифицированы правильно, а 5 неправильно классифицированы.
Поскольку для сравнения двух разных моделей зачастую удобнее иметь одну метрику, чем несколько, мы вычисляем две метрики из матрицы путаницы, которую мы позже объединяем в одну:
Чтобы объединить FPR и TPR в одну метрику, мы сначала вычисляем две бывшие метрики со многими различными пороговыми значениями (например, ) для логистической регрессии, затем строим их на одном графике, со значениями FPR на абсциссе и значениями TPR на ординате. Результирующая кривая называется кривой ROC, и метрика, которую мы рассматриваем, является AUC этой кривой, которую мы называем AUROC.0.00;0.01,0.02,…,1.00
На следующем рисунке графически показан AUROC:
На этом рисунке синяя область соответствует области под кривой рабочей характеристики приемника (AUROC). Пунктирной линией на диагонали мы представляем ROC-кривую случайного предиктора: она имеет AUROC 0,5. Случайный предиктор обычно используется в качестве базовой линии, чтобы увидеть, полезна ли модель.
Если вы хотите получить опыт из первых рук:
источник
Хотя я немного опоздал на вечеринку, но вот мои 5 центов. @FranckDernoncourt (+1) уже упоминал о возможных интерпретациях AUC ROC, и мой любимый - первый в его списке (я использую другую формулировку, но она такая же):
Рассмотрим этот пример (auc = 0,68):
Давайте попробуем смоделировать это: нарисуйте случайные положительные и отрицательные примеры, а затем вычислите долю случаев, когда положительные имеют больший результат, чем отрицательные.
И мы получаем 0,67926. Довольно близко, не так ли?
Кстати, в RI обычно используют пакет ROCR для рисования кривых ROC и расчета AUC.
источник
Важные соображения не включены ни в одно из этих обсуждений. Процедуры, описанные выше, предполагают неправильное определение пороговых значений и используют неправильные правила оценки точности (пропорции), которые оптимизируются путем выбора неправильных функций и присвоения им неправильных весов.
Дихотомизация непрерывных предсказаний противоречит теории оптимальных решений. Кривые ROC не дают действенного понимания. Они стали обязательными без исследователей, изучающих преимущества. У них очень большое соотношение чернил: информация.
Оптимальные решения не учитывают «позитивы» и «негативы», а предполагаемую вероятность результата. Функция полезности / затрат / потерь, которая не играет никакой роли в построении ROC и, следовательно, бесполезности ROC, используется для перевода оценки риска в оптимальное (например, с наименьшей ожидаемой потерей) решение.
Цель статистической модели часто состоит в том, чтобы сделать прогноз, и аналитик должен часто останавливаться на этом, потому что аналитик может не знать функцию потерь. Ключевыми компонентами прогноза для беспристрастной проверки (например, с использованием начальной загрузки) являются предиктивная дискриминация (один из полугодовых способов измерить это - вероятность согласования, которая оказывается равной области под ROC, но ее легче понять, если вы не «т привлечь РПЦ) и калибровочной кривой. Проверка калибровки действительно необходима, если вы используете прогнозы по абсолютной шкале.
См. Главу «Потеря информации» в « Биостатистика для биомедицинских исследований» и другие главы для получения дополнительной информации.
источник
AUC - это сокращение от площади под кривой . Он используется в классификационном анализе, чтобы определить, какая из используемых моделей предсказывает классы лучше всего.
Примером его применения являются кривые ROC. Здесь истинно положительные показатели строятся на фоне ложно положительных показателей. Пример ниже. Чем ближе AUC для модели к 1, тем лучше. Таким образом, модели с более высокими AUC предпочтительнее, чем с более низкими AUC.
Обратите внимание, что существуют и другие методы, кроме кривых ROC, но они также связаны с истинно положительными и ложно положительными показателями, например, с точным отзывом, F1-счетом или кривыми Лоренца.
источник
Мы получили:
Подставляя это в уравнение (1), мы получаем:
Другими словами, область под кривой - это вероятность того, что случайная положительная выборка будет иметь более высокий балл, чем случайная отрицательная выборка.
источник