Выбор между функциями потерь для двоичной классификации

Я работаю в проблемной области, где люди часто сообщают о ROC-AUC или AveP (средняя точность). Однако недавно я нашел бумаги, которые оптимизируют потерю журнала , в то время как другие сообщают о потере шарнира .

Хотя я понимаю, как рассчитываются эти показатели, мне трудно понять компромиссы между ними, и что хорошо для чего именно.

Когда речь идет о ROC-AUC против Precision-Recall, этот поток обсуждает, как максимизация ROC-AUC может рассматриваться как использование критериев оптимизации потерь, которые наказывают «ранжирование истинного отрицательного по меньшей мере такого же, как истинного положительного» (при условии, что более высокое баллы соответствуют позитивам). Кроме того, этот другой поток также предоставляет полезное обсуждение ROC-AUC в отличие от метрик Precision-Recall .

Тем не менее, для каких типов проблем предпочтение будет отдано потере бревна , скажем, ROC-AUC , AveP или потере шарнира ? Наиболее важно, какие типы вопросов следует задавать о проблеме при выборе между этими функциями потерь для двоичной классификации?

loss-functions мистифицировать
источник

Ответы:

Современное упоминание по этому вопросу [1]. По сути, это показывает, что все указанные вами функции потерь будут сходиться к байесовскому классификатору с высокими показателями.

Выбор между ними для конечных выборок может быть обусловлен несколькими различными аргументами:

Если вы хотите восстановить вероятности событий (и не только классификации), то естественным кандидатом является логическая логарифмическая потеря или любая другая обобщенная линейная модель (регрессия пробита, комплементарная логарифмическая регрессия, ...).
Если вы нацелены только на классификацию, SVM может быть предпочтительным выбором, так как он нацелен только на наблюдения в классификационной зоне и игнорирует отдаленные наблюдения, тем самым смягчая влияние достоверности предполагаемой линейной модели.
Если у вас мало наблюдений, преимущество в 2 может быть недостатком.
Могут быть вычислительные различия: как в заявленной задаче оптимизации, так и в конкретной используемой вами реализации.
Итог - вы можете просто попробовать их все и выбрать лучшего исполнителя.

[1] Бартлетт, Питер Л, Майкл I Джордан и Джон Д. Маколифф. «Выпуклость, классификация и границы риска». Журнал Американской статистической ассоциации, 101, нет. 473 (март 2006 г.): 138–56. DOI: 10.1198 / 016214505000000907.

JohnRos
источник