Зачем использовать нормализованный счет Джини вместо AUC в качестве оценки?

14

Конкурс Kaggle в прогнозировании безопасного водителя Порто Сегуро использует нормализованную оценку Джини в качестве метрики оценки, и мне стало любопытно узнать причины такого выбора. Каковы преимущества использования нормализованной оценки Джини вместо наиболее обычных показателей, таких как AUC, для оценки?

Xboard
источник
1
Раньше на сайте Kaggle был такой ответ: «Для« идеальной »модели есть максимально достижимая область, поскольку не все положительные примеры возникают сразу. Мы используем нормализованный коэффициент Джини, деля коэффициент Джини вашей модели на коэффициент Джини. идеальной модели. " но это больше не доступно. webcache.googleusercontent.com/...
Секст Эмпирик
1
Таким образом, Джини просто auc в другом масштабе. Или auc и gini применяются к разным кривым? Это не ясно для меня, как неопытного в машинном обучении. Вопрос не очень ясен по этому поводу.
Секст Эмпирик

Ответы:

3

gini=2×AUC1
Miguel
источник
6
Помимо того, что при использовании коэффициента Джини производительность случайного классификатора устанавливается равной 0 ... нормализация "улучшает" другой конец шкалы и делает показатель идеального классификатора равным 1, а не максимально достижимым ППК <1. Улучшение может быть только относительным, в зависимости от того, считаете ли вы, что интуитивно понятная шкала хороша или нет. Хотя помимо этой более простой интерпретации вы можете утверждать, что она (нормализация) также улучшает обобщение и сравнение различных наборов данных.
Секст Эмпирик
Почему максимальный достижимый AUC должен быть меньше 1, и я не вижу, как у gini его значение равно 1?
rep_ho
Это зависит от того, по какой кривой они рассчитывают коэффициент Джини. Может быть, они используют что-то отличное от кривой ROC (чей максимальный AUC действительно будет 1). Учитывая слова на веб-сайте kaggle, представляется правдоподобным, что максимальный AUC не равен 1:> «Затем мы перемещаемся слева направо, спрашивая:« В крайнем левом x% данных, какую часть совокупного ответа вы накопили? »
Секст Эмпирик
пример: bayesserver.com/docs/charts/lift-chart
Секст Эмпирик