Как вывести вероятностную интерпретацию AUC?

14

Почему область под кривой ROC является вероятностью того, что классификатор оценит случайно выбранный «положительный» экземпляр (из полученных предсказаний) выше, чем случайно выбранный «положительный» (из исходного положительного класса)? Как можно доказать это утверждение математически, используя интеграл, давая CDF и PDF истинных положительных и отрицательных распределений классов?

ММФ
источник
2
Я написал очень элементарное доказательство этого здесь: madrury.github.io/jekyll/update/statistics/2017/06/21/…
Мэтью Друри

Ответы:

10

Прежде всего, давайте попробуем определить площадь под кривой ROC формально. Некоторые предположения и определения:

  • У нас есть вероятностный классификатор, который выводит «оценку» s (x), где x - особенности, а s - общая возрастающая монотонная функция оценочной вероятности p (class = 1 | x).

  • k = { 0 , 1 } F k ( s )fk(s) , с : = pdf баллов для класса k, с CDFk={0,1}Fk(s)

  • Классификация нового наблюдения получается путем сравнения балла s с порогом t

Кроме того, для математического удобства давайте рассмотрим положительный класс (обнаруженное событие) k = 0 и отрицательный k = 1. В этом параметре мы можем определить:

  • Напомним (Чувствительность, также TPR) : (доля положительных случаев, классифицированных как положительные)F0(t)
  • Специфичность (он же TNR) : (доля негативных случаев классифицируется как негативная)1F1(t)
  • FPR (иначе выпадение) : 1 - TNR =F1(t)

Тогда кривая ROC представляет собой график от . Устанавливая , мы можем формально определить область под кривой ROC следующим образом: Изменение переменной ( ): F 1 ( t ) v = F 1 ( s ) A U C = 1 0 F 0 ( F - 1 1 ( v ) ) d v d v = f 1 ( s ) d s A U C = - F 0 ( s ) fF0(t)F1(t)v=F1(s)

AUC=01F0(F11(v))dv
dv=f1(s)ds
AUC=F0(s)f1(s)ds

Эту формулу можно легко увидеть как вероятность того, что случайно выбранный член класса 0 даст оценку ниже, чем оценка случайно выбранного члена класса 1.

Это доказательство взято с: https://pdfs.semanticscholar.org/1fcb/f15898db36990f651c1e5cdc0b405855de2c.pdf

alebu
источник
5

Ответ @ alebu отличный. Но его обозначение нестандартно и использует 0 для положительного класса и 1 для отрицательного класса. Ниже приведены результаты для стандартной записи (0 для отрицательного класса и 1 для положительного класса):

Pdf и cdf оценки для отрицательного класса: иf0(s)F0(s)

Pdf и cdf оценки для положительного класса: иf1(s)F1(s)

FPR =x(s)=1F0(s)

TPR =y(s)=1F1(s)

AUC=01y(x)dx=01y(x(τ))dx(τ)=+y(τ)x(τ)dτ=+(1F1(τ))(f0(τ))dτ=+(1F1(τ))f0(τ)dτ

где обозначает порог. Можно применить интерпретацию в ответе @ alebu к последнему выражению.τ

Лей хуан
источник
1

Способ расчета ППК-ROC является сюжет из ТСО и FPR как порог, изменяется и вычислить площадь под этой кривой. Но почему эта область под кривой такая же, как эта вероятность? Давайте предположим следующее:τ

  1. A - это распределение баллов, которое модель дает для точек данных, которые фактически находятся в положительном классе.
  2. B - это распределение баллов, которое модель дает для точек данных, которые на самом деле относятся к отрицательному классу (мы хотим, чтобы это было слева от ).A
  3. τ - порог отсечки. Если точка данных получает оценку выше этой, она предсказывается как принадлежащая к положительному классу. В противном случае прогнозируется отрицательный класс.

Обратите внимание, что TPR (напоминание) определяется как: а FPR (выпадение) -: .P(A>τ)P(B>τ)

Теперь мы построим TPR на оси у и РСП на оси х, нарисуйте кривую для различных и вычислить площадь под этой кривой ( ).τAUC

Мы получаем:

AUC=01TPR(x)dx=01P(A>τ(x))dx
где - FPR. Теперь одним из способов вычисления этого интеграла является рассмотрение как принадлежащего равномерному распределению. В этом случае это просто становится ожиданием .xxTPR

(1)AUC=Ex[P(A>τ(x))]
если мы рассмотрим .xU[0,1)

Теперь здесь был толькоxFPR

x=FPR=P(B>τ(x))
Поскольку мы рассматривали как равномерное распределение,x

P(B>τ(x))U
=>P(B<τ(x))(1U)U
(2)=>FB(τ(x))U

Но мы знаем из обратного преобразования закон , что для любой случайной величины , если , то . Это следует из того, что взятие любой случайной величины и применение к ней собственного CDF приводит к униформе.XFX(Y)UYX

FX(X)=P(FX(x)<X)=P(X<FX1(X))=FXFX1(X)=X
и это верно только для равномерного.

Использование этого факта в уравнении (2) дает нам:

τ(x)B

Подставляя это в уравнение (1), получаем:

AUC=Ex(P(A>B))=P(A>B)

Другими словами, область под кривой - это вероятность того, что случайная положительная выборка будет иметь более высокий балл, чем случайная отрицательная выборка.

ryu576
источник