Каковы правильные значения для точности и отзыва в крайних случаях?

20

Точность определяется как:

p = true positives / (true positives + false positives)

Является ли это исправить , что, как true positivesи false positivesподход 0, точность приближается к 1?

Тот же вопрос для отзыва:

r = true positives / (true positives + false negatives)

В настоящее время я выполняю статистический тест, в котором мне нужно вычислить эти значения, и иногда случается, что знаменатель равен 0, и мне интересно, какое значение вернуть для этого случая.

PS: Извините за неподходящий тег, который я хотел использовать recall, precisionи limit, но я пока не могу создать новые теги.

Бьерн Поллекс
источник
Я не думаю, что нам нужен лимит тег.
Предположительно, вы пытаетесь количественно оценить эффективность какой-либо диагностической процедуры; есть ли какая-то причина, по которой вы не используете правильную метрику обнаружения сигнала, такую ​​как d ', A' или площадь под кривой ROC?
Майк Лоуренс
3
@Mike, точность и отзыв являются общими метриками оценки, например, при поиске информации, где ROC, или, в частности, специфичность, неудобно использовать, потому что вы уже ожидаете большого количества ложных срабатываний.
user979

Ответы:

17

С учетом матрицы путаницы:

            predicted
            (+)   (-)
            ---------
       (+) | TP | FN |
actual      ---------
       (-) | FP | TN |
            ---------

мы знаем это:

Precision = TP / (TP + FP)
Recall = TP / (TP + FN)

Рассмотрим случаи, когда знаменатель равен нулю:

  • TP + FN = 0: означает, что во входных данных не было положительных случаев
  • TP + FP = 0: означает, что все случаи были предсказаны как отрицательные
Amro
источник
9
Расширение вашего ответа: если TP = 0 (как в обоих случаях), отзыв равен 1, так как метод не обнаружил ни одного истинного положительного результата; точность равна 0, если есть ФП, и 1 в противном случае.
11

Ответ - да. Неопределенные крайние случаи возникают, когда истинные положительные значения (TP) равны 0, так как это находится в знаменателе обоих P & R. В этом случае

  • Напомним = 1, когда FN = 0, так как было обнаружено 100% ТП
  • Точность = 1, когда FP = 0, так как нет никаких побочных результатов

Это переформулировка комментария @ mbq.

Джон Леманн
источник
3

Я знаком с различной терминологией. То, что вы называете точностью, я бы положительно прогнозировал (PPV). И то, что вы называете напоминанием, я бы назвал чувствительностью (Sens). :

http://en.wikipedia.org/wiki/Receiver_operating_characteristic

В случае чувствительности (напомним), если знаменатель равен нулю (как указывает Амро), НЕТ положительных случаев, поэтому классификация не имеет смысла. (Это не останавливает, чтобы TP или FN были равны нулю, что привело бы к предельной чувствительности 1 или 0. Эти точки находятся соответственно в верхнем правом и нижнем левом углах кривой ROC - TPR = 1 и TPR = 0. )

Ограничение PPV имеет смысл, хотя. Возможно, чтобы тестовое отключение было установлено настолько высоким (или низким), чтобы все случаи прогнозировались как отрицательные. Это в начале кривой ROC. Предельное значение PPV непосредственно перед тем, как отсечка достигает начала координат, можно оценить, учитывая последний сегмент кривой ROC непосредственно перед началом координат. (Это может быть лучше для моделирования, поскольку кривые ROC заведомо шумные.)

Например, если имеется 100 фактических позитивов и 100 фактических негативов, а конечный сегмент кривой ROC приближается к TPR = 0,08, FPR = 0,02, то предел PPV будет PPR ~ 0,08 * 100 / (0,08 * 100 + 0,02 * 100 ) = 8/10 = 0,8, т.е. 80% вероятности быть истинно положительным.

На практике каждый образец представлен сегментом на кривой ROC - горизонтальный для фактического негатива и вертикальный для фактического позитива. Можно было бы оценить ограничивающий PPV по самому последнему сегменту перед источником, но это дало бы оценочный ограничивающий PPV 1, 0 или 0,5, в зависимости от того, был ли последний образец истинно положительным, ложноположительным (фактическим отрицательным) или сделан равных TP и FP. Подход к моделированию был бы лучше, возможно, предполагая, что данные являются бинарными - распространенное предположение, например: http://mdm.sagepub.com/content/8/3/197.short

Thylacoleo
источник
1

Это будет зависеть от того, что вы подразумеваете под «приближением 0». Если ложные положительные и ложные отрицательные значения приближаются к нулю с большей скоростью, чем истинные положительные, то да на оба вопроса. Но в остальном не обязательно.

Роб Хиндман
источник
Я действительно не знаю скорость. Честно говоря, все, что я знаю, это то, что моя программа потерпела крах с делением на ноль и что мне нужно как-то разобраться с этим делом.
Бьорн Поллекс