Почему F-мера является гармоническим средним, а не средним арифметическим мерами точности и отзыва?

88

Когда мы вычисляем F-меру, учитывая как точность, так и отзыв, мы берем гармоническое среднее двух мер вместо простого среднего арифметического.

Какая интуитивная причина взятия гармонического среднего, а не простого среднего?

Лондонский парень
источник
1
Интуиция состоит в том, чтобы уравновесить точность и отзыв (обычно это лучшее измерение, но в некоторых случаях вы хотите максимизировать точность или отзыв, а это совсем другая история). Вы не можете получить высокий показатель f, если любой из них очень низкий.
зелень
1
cse.unsw.edu.au/~teachadmin/info/harmonic3.html Это хороший ресурс для понимания HM
Судип Бхандари,
2
Исправьте ссылку выше: di.unipi.it/~bozzo/The%20Harmonic%20Mean.htm или оригинальный @ archive.org
stason

Ответы:

16

Здесь у нас уже есть некоторые подробные ответы, но я подумал, что дополнительная информация об этом будет полезна некоторым парням, которые хотят вникнуть глубже (особенно, почему F-измерение).

Согласно теории измерения составная мера должна удовлетворять следующим 6 определениям:

  1. Связность (можно упорядочить две пары) и транзитивность (если e1> = e2 и e2> = e3, то e1> = e3)
  2. Независимость: два компонента влияют на эффективность независимо друг от друга.
  3. Условие Томсена: Учитывая, что при постоянном отзыве (точности) мы обнаруживаем разницу в эффективности для двух значений точности (отзыва), то это различие не может быть удалено или отменено путем изменения постоянного значения.
  4. Ограниченная разрешимость.
  5. Каждый компонент важен: изменение одного, оставляя другой постоянным, дает вариацию эффективности.
  6. Свойство архимеда для каждого компонента. Это просто гарантирует, что интервалы на компоненте сопоставимы.

Затем мы можем вывести и получить функцию эффективности: введите описание изображения здесь

И обычно мы используем не эффективность, а гораздо более простую оценку F, потому что :
введите описание изображения здесь

Теперь, когда у нас есть общая формула меры F:

введите описание изображения здесь

где мы можем уделить больше внимания отзыву или точности, установив бета, потому что бета определяется следующим образом:

введите описание изображения здесь

Если мы весим отзыв более важным, чем точность (все релевантные выбраны), мы можем установить бета как 2, и мы получим меру F2. И если мы делаем обратное и весовую точность выше, чем возврат (как можно больше выбранных элементов релевантны, например, в некоторых сценариях исправления грамматических ошибок, таких как CoNLL ), мы просто устанавливаем бета как 0,5 и получаем меру F0,5. И, очевидно, мы можем установить бета как 1, чтобы получить наиболее часто используемую меру F1 (среднее гармоническое значение точности и отзыва).

Думаю, в какой-то степени я уже ответил, почему мы не используем среднее арифметическое.

Рекомендации:

  1. https://en.wikipedia.org/wiki/F1_score
  2. Истина F-меры
  3. Информационный возврат
Лернер Чжан
источник
100

Чтобы объяснить, рассмотрим, например, что в среднем составляет 30 и 40 миль в час? если вы едете 1 час на каждой скорости, средняя скорость за эти 2 часа действительно является средним арифметическим, 35 ​​миль в час.

Однако, если вы едете на одинаковое расстояние на каждой скорости - скажем, 10 миль - то средняя скорость на 20 миль - это среднее гармоническое значение 30 и 40, примерно 34,3 мили в час.

Причина в том, что для того, чтобы среднее значение было действительным, вам действительно нужно, чтобы значения были в одних и тех же масштабированных единицах. Необходимо сравнить мили в час за такое же количество часов; чтобы сравнить такое же количество миль, вам нужно вместо этого усреднить часы на милю, что и делает среднее гармоническое.

И точность, и отзыв имеют истинные положительные значения в числителе и разные знаменатели. Чтобы усреднить их, на самом деле имеет смысл только усреднить их обратные, то есть гармоническое среднее.

Шон Оуэн
источник
7
Спасибо, это хороший аргумент в пользу того, что это подтверждается теорией; мой ответ был скорее прагматичным.
ВЫЙТИ - Anony-Mousse
78

Потому что это больше наказывает за крайние ценности.

Рассмотрим тривиальный метод (например, всегда возвращать класс A). Существует бесконечное количество элементов данных класса B и единственный элемент класса A:

Precision: 0.0
Recall:    1.0

Если взять среднее арифметическое, оно будет правильным на 50%. Несмотря на наихудший исход! С гармоническим средним значением F1-мера равна 0.

Arithmetic mean: 0.5
Harmonic mean:   0.0

Другими словами, чтобы иметь высокий F1, вам необходимо как имеют высокую точность и вспомнить.

ВЫЙТИ - Anony-Mousse
источник
Когда отзыв равен 0,0, точность должна быть больше 0,0, верно? Но я понял суть вашего примера. Красиво объяснил - Спасибо.
Лондонский парень
1
В вашем примере точность для класса A равна 0,5 вместо 0, а отзыв класса A равен 1; точность для класса B равна 0, а отзыв класса B - 0, как мы. Я предполагаю, что ваш сбалансированный класс означает, что настоящие ярлыки - A и B; каждый применяется к 50% данных.
зелень
Давайте сделаем бесконечные элементы класса B и один элемент класса A. Это не меняет математики, стоящей за F1.
ВЫЙТИ - Anony-Mousse
2
Выбор большего баланса - это не просто эвристика. Гармоническое среднее - это единственный способ, который имеет смысл с учетом единиц этих отношений. Среднее значение не имело бы смысла в сравнении
Шон Оуэн,
Где написано «эвристический» и чем ваш комментарий отличается от моего ответа? Но: F-мера является эвристикой, поскольку предполагает, что точность и отзыв одинаково важны. Вот почему необходимо выбрать бета-член - эвристически обычно используется бета = 1.
ВЫЙТИ - Anony-Mousse
30

Приведенные выше ответы хорошо объяснены. Это просто для быстрой справки, чтобы понять природу среднего арифметического и гармонического среднего с графиками. Как видно из графика, рассматривайте ось X и ось Y как точность и отзывчивость, а ось Z - как оценку F1. Таким образом, если судить по графику среднего гармонического, точность и отзыв должны вносить равный вклад в повышение оценки F1 в отличие от среднего арифметического.

Это для среднего арифметического.

введите описание изображения здесь

Это для среднего гармонического.

введите описание изображения здесь

Гадде Сайкумар
источник
Пожалуйста, используйте инструменты форматирования, чтобы правильно отредактировать и отформатировать свой ответ. Здесь должно отображаться изображение, а не гиперссылка.
Morse
26

Гармоническое среднее значение эквивалентно среднему арифметическому для обратных величин, которые должны быть усреднены по среднему арифметическому. Точнее, с помощью гармонического среднего вы преобразуете все свои числа в «усредняемую» форму (взяв обратную величину), вы берете их среднее арифметическое, а затем преобразуете результат обратно в исходное представление (снова принимая обратную величину).

Точность и отзыв «естественно» взаимозаменяемы, потому что их числитель один и тот же, а знаменатели разные. Дроби более разумно усреднять средним арифметическим, если они имеют одинаковый знаменатель.

Для большей интуиции предположим, что мы сохраняем количество истинно положительных элементов постоянным. Затем, взяв гармоническое среднее значение точности и отзыва, вы неявно берете среднее арифметическое ложных срабатываний и ложноотрицательных результатов. Это в основном означает, что ложные срабатывания и ложные отрицания одинаково важны для вас, когда истинные срабатывания остаются неизменными. Если алгоритм имеет на N ложных срабатываний больше, но на N ложных срабатываний меньше (при тех же истинных срабатываниях), F-мера остается прежней.

Другими словами, F-мера подходит, когда:

  1. ошибки одинаково плохи, будь то ложные срабатывания или ложные отрицания
  2. количество ошибок измеряется относительно количества истинных положительных результатов
  3. настоящие негативы неинтересны

Пункт 1 может быть или не быть верным, существуют взвешенные варианты F-меры, которые можно использовать, если это предположение не верно. Пункт 2 вполне естественен, поскольку мы можем ожидать масштабирования результатов, если мы просто классифицируем все больше и больше точек. Относительные числа должны остаться прежними.

Пункт 3 довольно интересен. Во многих приложениях отрицание является естественным значением по умолчанию, и может быть даже сложно или произвольно указать, что действительно считается отрицательным. Например, пожарная тревога имеет истинное отрицательное событие каждую секунду, каждую наносекунду, каждый раз, когда проходит время Планка и т. Д. Даже кусок камня все время имеет эти истинно отрицательные события обнаружения пожара.

Или в случае обнаружения лица, большую часть времени вы « неправильно не возвращаете » миллиарды возможных областей изображения, но это не интересно. Интересные случаи , когда вы действительно возвращают предлагаемое обнаружение или когда вы должны вернуть его.

Напротив, точность классификации в равной степени касается истинных положительных и истинно отрицательных результатов и больше подходит, если общее количество выборок (событий классификации) четко определено и довольно мало.

Isarandi
источник