Поскольку у меня очень несбалансированный набор данных (9% положительных результатов), я решил, что кривая точного отзыва была более подходящей, чем кривая ROC. Я получил аналогичную сводную меру площади под кривой PR (.49, если вам интересно), но не уверен, как ее интерпретировать. Я слышал, что 0,8 или выше - это то, что является хорошим AUC для ROC, но будут ли общие отсечки такими же для AUC для кривой точного возврата?
источник
.49 не велик, но его толкование отличается от РПЦ АУК. Для ROC AUC, если вы получили .49 с использованием модели логистической регрессии, я бы сказал, что вы делаете не лучше, чем случайные. Для .49 PR AUC, однако, это может быть не так уж плохо. Я хотел бы рассмотреть вопрос об индивидуальной точности и вспомнить, возможно, одно или другое - это то, что влияет на ваш PR AUC. Напомним, скажу вам, сколько из этого 9% положительного класса вы на самом деле угадывает правильно. Точность покажет вам, сколько вы догадались положительного, чего не было. (Ложные срабатывания). Напоминание в 50% было бы плохо, если вы не догадались, что многие из вашего несбалансированного класса не верны, но, возможно, точность в 50% не будет плохой. Зависит от вашей ситуации.
источник
Случайный оценщик будет иметь PR-AUC 0,09 в вашем случае (9% положительных результатов), поэтому ваш 0,49, безусловно, является существенным увеличением.
Если это хороший результат, его можно оценить только в сравнении с другими алгоритмами, но вы не предоставили подробных сведений о методе / данных, которые вы использовали.
Кроме того, вы можете оценить форму вашей PR-кривой. Идеальная PR-кривая идет от верхнего угла по горизонтали к верхнему правому углу и прямо вниз к нижнему углу, что приводит к PR-AUC 1. В некоторых приложениях PR-кривая вместо этого показывает сильный скачок в начале, чтобы быстро снова опуститесь близко к «линии случайной оценки» (горизонтальная линия с точностью 0,09 в вашем случае). Это указывало бы на хорошее выявление «сильных» положительных результатов, но плохую работу с менее ясными кандидатами.
Если вы хотите найти хороший порог для параметра отсечки вашего алгоритма, вы можете рассмотреть точку на кривой PR, которая находится ближе всего к верхнему углу. Или, что еще лучше, рассмотрите возможность перекрестной проверки, если это возможно. Вы можете достичь точности и вызвать значения для определенного параметра отсечки, которые более интересны для вашего приложения, чем значение PR-AUC. AUC наиболее интересны при сравнении разных алгоритмов.
источник