Я был озадачен различием между показателем F1, значением Dice и IoU (пересечение по объединению). К настоящему времени я обнаружил, что F1 и Dice означают одно и то же (верно?), И у IoU есть формула, очень похожая на две другие.
- F1 / Dice:
- IoU / Jaccard:
Существуют ли какие-либо практические различия или другие вещи, которые стоит отметить, кроме того, что F1 весит истинные позитивы выше? Есть ли ситуация, когда я бы использовал один, но не другой?
Ответы:
Вы на правильном пути.
Итак, несколько вещей сразу. Из определения двух метрик мы имеем, что баллы IoU и F всегда находятся в пределах коэффициента 2 друг от друга: а также что они встречаются в крайних единицах и нулях в условиях что вы ожидаете (идеальное совпадение и полностью непересекающиеся).
Следует также отметить , что отношение между ними могут быть связаны явно с Iou:
Но есть более сильное утверждение, которое можно сделать для типичного применения классификации а-ля машинного обучения. Для любой фиксированной «основной истины» две метрики всегда положительно коррелируют. То есть, если классификатор A лучше, чем B по одной метрике, он также лучше, чем классификатор B по другой метрике.
В таком случае заманчиво сделать вывод, что эти две метрики функционально эквивалентны, поэтому выбор между ними является произвольным, но не таким быстрым! Проблема возникает при получении среднего балла за набор выводов . Тогда разница возникает при количественной оценке , как классификатор B хуже, чем A для любого конкретного случая.
В целом метрика IoU имеет тенденцию штрафовать отдельные случаи плохой классификации в количественном отношении больше, чем оценка F количественно, даже если они оба могут согласиться с тем, что этот один случай является плохим. Подобно тому, как L2 может оштрафовать наибольшие ошибки больше, чем L1, метрика IoU имеет тенденцию оказывать «возведение в квадрат» на ошибки по сравнению с F-баллом. Таким образом, показатель F имеет тенденцию измерять что-то ближе к средней производительности, в то время как показатель IoU измеряет что-то ближе к производительности в худшем случае.
Предположим, например, что подавляющее большинство выводов умеренно лучше с классификатором A, чем с B, но некоторые из них значительно хуже с использованием классификатора A. Может случиться так, что метрика F благоприятствует классификатору A, тогда как метрика IoU благоприятствует классификатор Б.
Безусловно, обе эти метрики намного более похожи, чем они отличаются. Но оба они страдают от другого недостатка с точки зрения принятия средних значений этих баллов по многим выводам: они оба преувеличивают важность наборов с практически нулевыми фактическими, основанными на истинности положительными наборами. В типичном примере сегментации изображения, если изображение имеет только один пиксель некоторого обнаруживаемого класса, и классификатор обнаруживает этот пиксель и еще один пиксель, его F-оценка составляет всего 2/3, а IoU еще хуже при 1 / 2. Тривиальные ошибки, подобные этим, могут серьезно влиять на среднюю оценку, полученную за набор изображений. Короче говоря, он взвешивает каждую пиксельную ошибку обратно пропорционально размеру выбранного / релевантного набора, а не обрабатывает их одинаково.
источник
"That is to say that if classifier A is better than B under one metric, it is also better than classifier B under the other metric."
и 2:"It may be the case then that the F metric favors classifier A while the IoU metric favors classifier B."