Я хотел бы знать, как интерпретировать разницу значений f-меры. Я знаю, что f-мера - это сбалансированное среднее между точностью и отзывом, но я спрашиваю о практическом значении различия в F-мерах.
Например, если классификатор C1 имеет точность 0,4, а другой классификатор C2 - 0,8, то можно сказать, что C2 правильно классифицировал двойную часть тестовых примеров по сравнению с C1. Однако, если классификатор C1 имеет F-меру 0,4 для определенного класса, а другой классификатор C2 - F-меру 0,8, что мы можем сказать о разнице в производительности двух классификаторов? Можно ли сказать, что C2 правильно классифицировал X больше экземпляров, чем C1?
Ответы:
Я не могу думать об интуитивном значении меры F, потому что это просто комбинированная метрика. Конечно, более интуитивным, чем F-mesure, является точность и отзывчивость.
Но используя два значения, мы часто не можем определить, превосходит ли один алгоритм другой. Например, если один алгоритм имеет более высокую точность, но меньший отзыв, чем другой, как вы можете определить, какой алгоритм лучше?
Если у вас есть конкретная цель в уме, как «Точность - это король. Мне наплевать на воспоминания », тогда проблем нет. Чем выше точность, тем лучше. Но если у вас нет такой сильной цели, вам понадобится комбинированная метрика. Это F-мера. Используя его, вы сравните некоторые из точности и некоторые из воспоминаний.
Кривая ROC часто рисуется с указанием F-меры. Вы можете найти эту статью интересной, так как она содержит объяснение нескольких показателей, включая кривые ROC: http://binf.gmu.edu/mmasso/ROC101.pdf
источник
Важность оценки F1 отличается в зависимости от сценария. Предположим, что целевая переменная является двоичной меткой.
источник
F-мера имеет интуитивное значение. Он говорит вам, насколько точен ваш классификатор (сколько экземпляров он классифицирует правильно), а также насколько он устойчив (он не пропускает значительное количество экземпляров).
С высокой точностью, но низкой степенью отзыва, ваш классификатор чрезвычайно точен, но он пропускает значительное количество экземпляров, которые трудно классифицировать. Это не очень полезно.
Посмотрите на эту гистограмму. Не обращайте внимания на его первоначальное назначение.
Справа вы получаете высокую точность, но низкий отзыв. Если я выберу только экземпляры с оценкой выше 0,9, мои классифицированные экземпляры будут чрезвычайно точными, однако я пропущу значительное количество экземпляров. Эксперименты показывают, что сладкое пятно здесь составляет около 0,76, где F-мера составляет 0,87.
источник
F-мера - это гармоническое среднее вашей точности и отзыва. В большинстве ситуаций у вас есть компромисс между точностью и отзывом. Если вы оптимизируете свой классификатор для увеличения одного и потери другого, среднее значение гармоник быстро уменьшается. Однако лучше всего, когда точность и отзыв одинаковы.
Учитывая F-меры 0,4 и 0,8 для ваших классификаторов, вы можете ожидать, что они достигнут максимальных значений при взвешивании с точностью до отзыва.
Для наглядности взгляните на этот рисунок из Википедии :
F-мера - это H , A и B - отзыв и точность. Вы можете увеличить один, но затем другой уменьшается.
источник
Формула для F-меры (F1, с бета = 1) такая же, как формула, дающая эквивалентное сопротивление, составленное из двух сопротивлений, помещенных параллельно в физике (забывая о факторе 2).
Это может дать вам возможную интерпретацию, и вы можете подумать как об электронном, так и о тепловом сопротивлении. Эта аналогия будет определять F-меру как эквивалентное сопротивление, образованное чувствительностью и точностью, размещенными параллельно.
Для F-меры максимально возможное значение равно 1, и вы теряете сопротивление, как только один из двух также теряет сопротивление (то есть получается значение ниже 1). Если вы хотите лучше понять эту величину и ее динамику, подумайте о физическом явлении. Например, кажется, что F-мера <= max (чувствительность, точность).
источник
источник
источник
Ближайшее интуитивное значение f1-показателя воспринимается как среднее значение отзыва и точности. Давайте проясним это для вас:
В задаче классификации вы, возможно, планируете построить классификатор с высокой точностью и отзывом. Например, классификатор, который говорит, честен ли человек или нет.
Для точности вы обычно можете точно сказать, сколько честных людей существует в данной группе. В этом случае, заботясь о высокой точности, вы предполагаете, что можете ошибочно классифицировать лжеца как честного, но не часто. Другими словами, здесь вы пытаетесь идентифицировать лжеца из честной группы в целом.
Однако, для справки, вы будете действительно обеспокоены, если считаете лжеца честным человеком. Для вас это будет большой потерей и большой ошибкой, и вы не захотите делать это снова. Кроме того, все в порядке, если вы классифицируете кого-то честного как лжеца, но ваша модель никогда не должна (или в большинстве случаев не претендует) на лжеца как честного. Другими словами, здесь вы сосредоточены на конкретном классе и стараетесь не ошибиться в этом.
Теперь, давайте возьмем случай, когда вы хотите, чтобы ваша модель (1) точно идентифицировала честного лжеца (точность) (2) идентифицировала каждого человека из обоих классов (напомним). Это означает, что вы выберете модель, которая будет хорошо работать по обоим показателям.
Решение о выборе модели будет затем пытаться оценить каждую модель на основе среднего значения двух метрик. F-Score является лучшим, который может описать это. Давайте посмотрим на формулу:
Напомним: p = tp / (tp + fp)
Напомним: r = tp / (tp + fn)
F-оценка: fscore = 2 / (1 / r + 1 / p)
Как видите, чем выше отзыв и точность, тем выше F-оценка.
источник
Зная, что оценка F1 является гармоническим средним значением точности и напоминания, ниже немного о них.
Я хотел бы сказать Напомним больше о ложноотрицательных .ie, имея более высокий Recall означает , что есть меньше Ложноотрицательные .
Как бы ни было меньше FN или Zero FN, ваша модель предсказания действительно хороша.
То же самое здесь, Меньше или Ноль Ложных Позитивов означает, что предсказание модели действительно хорошо.
источник