Обоснование использования AUC?

10

Особенно в области компьютерной науки, ориентированной на информатику, AUC (область под характеристической кривой оператора приемника) является популярным критерием для оценки классификаторов. Каковы основания для использования AUC? Например, есть ли конкретная функция потерь, для которой оптимальным решением является классификатор с лучшим AUC?

charles.y.zheng
источник
1
AUC - это функция потерь, ясно, что для этой функции потерь оптимальным решением является классификатор с лучшим AUC.
Робин Джирард
1
@robingirard Нет, это не так, поскольку он не дифференцируем, то есть вы не можете оптимизировать его напрямую.
cpury

Ответы:

15

Для двоичных классификаторов используемых для ранжирования (то есть для каждого примера мы имеем в интервале ), из которого измеряется AUC, AUC эквивалентна вероятности того, что где - истинно положительный пример, а - истинно отрицательный пример. Таким образом, выбор модели с максимальным значением AUC минимизирует вероятность того, что . То есть сводит к минимуму потерю рейтинга истинного негатива, по крайней мере, такого же большого, как истинный позитив.e C ( e ) [ 0 , 1 ] C ( e 1 ) > C ( e 0 ) e 1 e 0 C ( e 0 ) C ( e 1 )CeC(e)[0,1]C(e1)>C(e0)e1e0C(e0)C(e1)

Erik
источник
0

Давайте рассмотрим простой пример идентификации хорошего помидора из пула хороших + плохих помидоров. Допустим, количество хороших помидоров равно 100, а плохих помидоров - 1000, итого 1100. Теперь ваша задача - найти как можно больше хороших помидоров. Один из способов получить все хорошие помидоры - взять все 1100 помидоров. Но это ясно говорит о том, что вы не можете отличить б / н от плохого .

Итак, каков правильный способ дифференциации - нужно получить как можно больше хороших, выбирая очень мало плохих , поэтому нам нужно измерить что-то, что может сказать, сколько хороших мы выбрали, а также сказать, что плохие считают в Это. Показатель AUC дает больший вес, если он может выбрать больше хороших с несколькими плохими, как показано ниже. в котором говорится, насколько хорошо вы можете различать б / н, хорошее и плохое.

В примере вы можете заметить, что, собирая 70% хороших помидоров, черная кривая выбрала около 48% плохих (примеси), а синяя имеет 83% плохих (примеси). Таким образом, черная кривая имеет лучший показатель AUC по сравнению с синей. введите описание изображения здесь

yugandhar
источник
Как это отвечает на вопрос?
Вивек Субраманян
Я написал с интуицией AUC, что это помогает дать единую оценку для определения хороших (1 в двоичной классификации) во всей популяции, уменьшая при этом количество ложных срабатываний. Помоги мне, как я мог сделать лучше для этого.
Югандхар