Точность определяется как:
p = true positives / (true positives + false positives)
Является ли это исправить , что, как true positives
и false positives
подход 0, точность приближается к 1?
Тот же вопрос для отзыва:
r = true positives / (true positives + false negatives)
В настоящее время я выполняю статистический тест, в котором мне нужно вычислить эти значения, и иногда случается, что знаменатель равен 0, и мне интересно, какое значение вернуть для этого случая.
PS: Извините за неподходящий тег, который я хотел использовать recall
, precision
и limit
, но я пока не могу создать новые теги.
precision-recall
data-visualization
logarithm
references
r
networks
data-visualization
standard-deviation
probability
binomial
negative-binomial
r
categorical-data
aggregation
plyr
survival
python
regression
r
t-test
bayesian
logistic
data-transformation
confidence-interval
t-test
interpretation
distributions
data-visualization
pca
genetics
r
finance
maximum
probability
standard-deviation
probability
r
information-theory
references
computational-statistics
computing
references
engineering-statistics
t-test
hypothesis-testing
independence
definition
r
censoring
negative-binomial
poisson-distribution
variance
mixed-model
correlation
intraclass-correlation
aggregation
interpretation
effect-size
hypothesis-testing
goodness-of-fit
normality-assumption
small-sample
distributions
regression
normality-assumption
t-test
anova
confidence-interval
z-statistic
finance
hypothesis-testing
mean
model-selection
information-geometry
bayesian
frequentist
terminology
type-i-and-ii-errors
cross-validation
smoothing
splines
data-transformation
normality-assumption
variance-stabilizing
r
spss
stata
python
correlation
logistic
logit
link-function
regression
predictor
pca
factor-analysis
r
bayesian
maximum-likelihood
mcmc
conditional-probability
statistical-significance
chi-squared
proportion
estimation
error
shrinkage
application
steins-phenomenon
Бьерн Поллекс
источник
источник
Ответы:
С учетом матрицы путаницы:
мы знаем это:
Рассмотрим случаи, когда знаменатель равен нулю:
источник
Ответ - да. Неопределенные крайние случаи возникают, когда истинные положительные значения (TP) равны 0, так как это находится в знаменателе обоих P & R. В этом случае
Это переформулировка комментария @ mbq.
источник
Я знаком с различной терминологией. То, что вы называете точностью, я бы положительно прогнозировал (PPV). И то, что вы называете напоминанием, я бы назвал чувствительностью (Sens). :
http://en.wikipedia.org/wiki/Receiver_operating_characteristic
В случае чувствительности (напомним), если знаменатель равен нулю (как указывает Амро), НЕТ положительных случаев, поэтому классификация не имеет смысла. (Это не останавливает, чтобы TP или FN были равны нулю, что привело бы к предельной чувствительности 1 или 0. Эти точки находятся соответственно в верхнем правом и нижнем левом углах кривой ROC - TPR = 1 и TPR = 0. )
Ограничение PPV имеет смысл, хотя. Возможно, чтобы тестовое отключение было установлено настолько высоким (или низким), чтобы все случаи прогнозировались как отрицательные. Это в начале кривой ROC. Предельное значение PPV непосредственно перед тем, как отсечка достигает начала координат, можно оценить, учитывая последний сегмент кривой ROC непосредственно перед началом координат. (Это может быть лучше для моделирования, поскольку кривые ROC заведомо шумные.)
Например, если имеется 100 фактических позитивов и 100 фактических негативов, а конечный сегмент кривой ROC приближается к TPR = 0,08, FPR = 0,02, то предел PPV будет PPR ~ 0,08 * 100 / (0,08 * 100 + 0,02 * 100 ) = 8/10 = 0,8, т.е. 80% вероятности быть истинно положительным.
На практике каждый образец представлен сегментом на кривой ROC - горизонтальный для фактического негатива и вертикальный для фактического позитива. Можно было бы оценить ограничивающий PPV по самому последнему сегменту перед источником, но это дало бы оценочный ограничивающий PPV 1, 0 или 0,5, в зависимости от того, был ли последний образец истинно положительным, ложноположительным (фактическим отрицательным) или сделан равных TP и FP. Подход к моделированию был бы лучше, возможно, предполагая, что данные являются бинарными - распространенное предположение, например: http://mdm.sagepub.com/content/8/3/197.short
источник
Это будет зависеть от того, что вы подразумеваете под «приближением 0». Если ложные положительные и ложные отрицательные значения приближаются к нулю с большей скоростью, чем истинные положительные, то да на оба вопроса. Но в остальном не обязательно.
источник