Отношения между KS, AUROC и Gini

11

Общая статистика валидации модели, такая как критерий Колмогорова – Смирнова (KS), AUROC и коэффициент Джини , все функционально связаны. Однако мой вопрос касается доказательства того, как все это связано. Мне любопытно, если кто-нибудь может помочь мне доказать эти отношения. Я не смог ничего найти в Интернете, но мне просто искренне интересно, как работают доказательства. Например, я знаю, что Gini = 2AUROC-1, но мое лучшее доказательство - указание на график. Я заинтересован в формальных доказательствах. Любая помощь будет принята с благодарностью!

Стивен
источник
1
Под KS вы имеете в виду статистику Колмогорова-Смирнова? AUROC, вероятно, область под кривой ROC?
Нитеш
Похоже, что начать с Википедии и ознакомиться с оригинальными ссылками было бы хорошим началом.
LauriK

Ответы:

1

В статье Википедии о рабочих характеристиках Receiver упоминается этот документ для результата Gini = 2AUROC-1: Hand, David J .; и Till, Robert J. (2001); Простое обобщение области под кривой ROC для множественных задач классификации классов, Машинное обучение, 45, 171–186. Но я боюсь, что у меня нет легкого доступа к нему, чтобы увидеть, насколько близко это подходит к тому, что вы хотите.

nealmcb
источник
1
... и это может быть бесполезным результатом, поскольку Gini обычно применяется к данным с двумя категориальными метками, а AUROC применяется к данным числового ранжирования + двоичной метке. Они могут совпадать, только если ваш рейтинг двоичный? в этом случае вообще не имеет смысла использовать AUROC, потому что это 3-точечная кривая с 2 степенями свободы ... (Я не проверял этот результат, слишком много бумажного спама в Википедии в наши дни.)
ВЫЙТИ - Anony-Mousse
0

Согласно документу (Adeodato, PJ L и Melo, SB 2016), существует линейная зависимость между площадью под кривой KS (AUKS) и площадью под кривой ROC (AUROC), а именно:

AUROC=0.5+AUKS

Доказательство эквивалентности включено в статью.

ntzortzis
источник
0

Результат Джини = 2 * AUROC-1 трудно доказать, потому что это не обязательно верно. Статья в Википедии о кривой рабочих характеристик приемника дает результат в виде определения Джини, а статья Хэнда и Тилля (цитируемая nealmcb) просто говорит, что графическое определение Джини с использованием кривой ROC приводит к этой формуле.

Суть в том, что это определение Джини используется в сообществах машиностроения и машиностроения, но экономисты и демографы используют другое определение (возвращаясь к первоначальной статье Джини). Статья Википедии о коэффициенте Джини излагает это определение на основе кривой Лоренца.

Статья Шехтман & Шехтман (2016 г.) устанавливает связь между ППК и первоначальным определением Джини. Но чтобы увидеть, что они не могут быть абсолютно одинаковыми, предположим, что доля событий равна p и что у нас есть идеальный классификатор. Кривая ROC затем проходит через верхний левый угол, и AUCROC равен 1. Однако кривая Лоренца (перевернутая) проходит от (0,0) до ( p , 1) до (1,1), и Джини экономистов равен 1 - р / 2, что почти, но не точно 1.

Если события редки, то отношение Gini = 2 * AUROC-1 почти, но не совсем верно, используя оригинальное определение Джини. Отношения верны только в том случае, если Джини переопределяется, чтобы сделать их истинными.

PaulVD
источник