ROC-кривые для несбалансированных наборов данных

10

Рассмотрим входную матрицу и двоичный выход .Xy

Распространенным способом измерения производительности классификатора является использование кривых ROC.

На графике ROC диагональ - это результат, который можно получить из случайного классификатора. В случае несбалансированного выходного сигнала производительность случайного классификатора можно улучшить, выбрав или с различными вероятностями.y01

Как можно представить производительность такого классификатора на графике кривой ROC? Я полагаю, это должна быть прямая линия с другим углом, а не диагональ больше?

Пример кривой ROC

Donbeo
источник
2
Вместо этого вы можете попробовать использовать кривую точного возврата: «График точного отзыва более информативен, чем график ROC, при оценке двоичных классификаторов для несбалансированных наборов данных», ncbi.nlm.nih.gov/pmc/articles/PMC4349800 , вероятно, более доступный сайт , созданный авторами статьи, classeval.wordpress.com/simulation-analysis/...
zyxue

Ответы:

16

Кривые ROC нечувствительны к балансу классов. Прямая линия, которую вы получаете для случайного классификатора, уже является результатом использования различных вероятностей получения положительного результата (0 приводит вас к (0, 0), а 1 - к (1, 1) с любым промежуточным диапазоном).

Ничего не меняется в несбалансированной обстановке.

Марк Клазен
источник
1
Я считаю полезным рассмотреть значение области под кривой, чтобы понять, почему диагональ не меняется. AUC можно интерпретировать как вероятность того, что случайно выбранный положительный пример будет иметь более высокий балл, чем случайно выбранный отрицательный пример. 1 . Это проясняет мне, почему дисбаланс классов не является проблемой.
JBecker