F1 / Dice-Score против IoU

24

Я был озадачен различием между показателем F1, значением Dice и IoU (пересечение по объединению). К настоящему времени я обнаружил, что F1 и Dice означают одно и то же (верно?), И у IoU есть формула, очень похожая на две другие.

  • F1 / Dice:
    2TP2TP+FP+FN
  • IoU / Jaccard:
    TPTP+FP+FN

Существуют ли какие-либо практические различия или другие вещи, которые стоит отметить, кроме того, что F1 весит истинные позитивы выше? Есть ли ситуация, когда я бы использовал один, но не другой?

pietz
источник
По-видимому, коэффициент Жакара также такой же, как у IoU
pietz
Мне было бы особенно интересно, если некоторые из этих (теперь 4) измерений предназначены только для двоичных данных.
Pietz

Ответы:

38

Вы на правильном пути.

Итак, несколько вещей сразу. Из определения двух метрик мы имеем, что баллы IoU и F всегда находятся в пределах коэффициента 2 друг от друга: а также что они встречаются в крайних единицах и нулях в условиях что вы ожидаете (идеальное совпадение и полностью непересекающиеся).

F/2яоUF

Следует также отметить , что отношение между ними могут быть связаны явно с Iou:

яоU/Fзнак равно1/2+яоU/2
, так что отношение приближается к 1/2 , как обе метрики стремятся к нулю.

Но есть более сильное утверждение, которое можно сделать для типичного применения классификации а-ля машинного обучения. Для любой фиксированной «основной истины» две метрики всегда положительно коррелируют. То есть, если классификатор A лучше, чем B по одной метрике, он также лучше, чем классификатор B по другой метрике.

В таком случае заманчиво сделать вывод, что эти две метрики функционально эквивалентны, поэтому выбор между ними является произвольным, но не таким быстрым! Проблема возникает при получении среднего балла за набор выводов . Тогда разница возникает при количественной оценке , как классификатор B хуже, чем A для любого конкретного случая.

В целом метрика IoU имеет тенденцию штрафовать отдельные случаи плохой классификации в количественном отношении больше, чем оценка F количественно, даже если они оба могут согласиться с тем, что этот один случай является плохим. Подобно тому, как L2 может оштрафовать наибольшие ошибки больше, чем L1, метрика IoU имеет тенденцию оказывать «возведение в квадрат» на ошибки по сравнению с F-баллом. Таким образом, показатель F имеет тенденцию измерять что-то ближе к средней производительности, в то время как показатель IoU измеряет что-то ближе к производительности в худшем случае.

Предположим, например, что подавляющее большинство выводов умеренно лучше с классификатором A, чем с B, но некоторые из них значительно хуже с использованием классификатора A. Может случиться так, что метрика F благоприятствует классификатору A, тогда как метрика IoU благоприятствует классификатор Б.

Безусловно, обе эти метрики намного более похожи, чем они отличаются. Но оба они страдают от другого недостатка с точки зрения принятия средних значений этих баллов по многим выводам: они оба преувеличивают важность наборов с практически нулевыми фактическими, основанными на истинности положительными наборами. В типичном примере сегментации изображения, если изображение имеет только один пиксель некоторого обнаруживаемого класса, и классификатор обнаруживает этот пиксель и еще один пиксель, его F-оценка составляет всего 2/3, а IoU еще хуже при 1 / 2. Тривиальные ошибки, подобные этим, могут серьезно влиять на среднюю оценку, полученную за набор изображений. Короче говоря, он взвешивает каждую пиксельную ошибку обратно пропорционально размеру выбранного / релевантного набора, а не обрабатывает их одинаково.

с0с1

Виллем
источник
Виллем, я бы не попросил лучшего ответа. Большое спасибо, что нашли время.
Питс
5
Я попробовал ваш метод полной ошибки и просто хотел добавить, что он не работает с постоянным дисбалансом между позитивами и негативами. Представьте себе целый набор данных изображений, где только один пиксель составляет основную сегментацию правды. Нейронные сети могут довольно быстро узнать, что пустой прогноз всегда на 99,9% точнее, используя общую ошибку. Переходя к IoU или DSC, мы заставляем сеть найти сегментацию по тем же причинам, которые вы упомянули выше. Итак, в конце концов, это очень проблема, зависит.
Пец
1
Может ли кто-нибудь помочь мне согласовать следующие два утверждения ?: 1: "That is to say that if classifier A is better than B under one metric, it is also better than classifier B under the other metric."и 2:"It may be the case then that the F metric favors classifier A while the IoU metric favors classifier B."
Мэтт
1
Первый относится к оценке одного вывода, а второй относится к средней оценке за набор выводов (например, набор изображений).
Виллем