На рисунке ниже показана непрерывная кривая ложноположительных показателей по сравнению с истинно положительными показателями:
Однако я не сразу понимаю, как рассчитываются эти ставки. Если метод применяется к набору данных, он имеет определенную скорость FP и определенную скорость FN. Не означает ли это, что каждый метод должен иметь одну точку, а не кривую? Конечно, есть несколько способов настройки метода, производящих несколько разных точек, но мне не ясно, как существует этот континуум скоростей или как он генерируется.
Ответы:
График представляет собой кривую ROC, и точки (False Positive Rate, True Positive Rate) рассчитываются для различных пороговых значений. Предполагая, что у вас есть равномерная функция полезности, оптимальным пороговым значением является значение для точки, ближайшей к (0, 1).
источник
Для создания кривых ROC (= кривых рабочих характеристик приемника):
Предположим, у нас есть вероятностный двоичный классификатор, такой как логистическая регрессия. Прежде чем представить кривую ROC, необходимо понять концепцию матрицы смешения . Когда мы делаем бинарный прогноз, может быть 4 типа ошибок:
Чтобы получить матрицу путаницы, мы просматриваем все прогнозы, сделанные моделью, и подсчитываем, сколько раз встречается каждый из этих 4 типов ошибок:
В этом примере матрицы путаницы среди 50 классифицированных точек данных 45 классифицированы правильно, а 5 неправильно классифицированы.
Поскольку для сравнения двух разных моделей зачастую удобнее иметь одну метрику, чем несколько, мы вычисляем две метрики из матрицы путаницы, которую мы позже объединяем в одну:
На этом рисунке синяя область соответствует области под кривой рабочей характеристики приемника (AUROC). Пунктирной линией на диагонали мы представляем ROC-кривую случайного предиктора: она имеет AUROC 0,5. Случайный предиктор обычно используется в качестве базовой линии, чтобы увидеть, полезна ли модель.
Если вы хотите получить опыт из первых рук:
источник
Ответ Мортена правильно отвечает на вопрос в заголовке - фигура действительно является кривой ROC. Это получается путем построения последовательности ложноположительных показателей (FPR) против соответствующих им истинно положительных показателей.
Тем не менее, я хотел бы ответить на вопрос, который вы задаете в теле своего поста.
Многие методы машинного обучения имеют настраиваемые параметры. Например, результатом логистической регрессии является прогнозируемая вероятность членства в классе. Правило принятия решения для классификации всех точек с предсказанными вероятностями выше некоторого порога для одного класса, а остальные - для другого, может создать гибкий диапазон классификаторов, каждый из которых имеет различную статистику TPR и FPR. То же самое можно сделать в случае случайного леса, где учитываются голоса деревьев, или SVM, где вы рассматриваете расстояние со знаком от гиперплоскости.
В случае, когда вы выполняете перекрестную проверку для оценки производительности вне выборки, типичной практикой является использование значений прогноза (голосов, вероятностей, расстояний со знаком) для генерации последовательности TPR и FPR. Это обычно выглядит как пошаговая функция, потому что обычно существует только одна точка, перемещающаяся из TP в FN или FP в FN, для каждого прогнозируемого значения (т.е. все прогнозируемые значения вне выборки являются уникальными). В этом случае, хотя существует целый ряд вариантов для вычисления TPR и FPR, функции TPR и FPR не будут непрерывными, поскольку имеется только конечное число точек вне выборки, поэтому результирующие кривые будут иметь ступенчатый вид ,
источник
Из Википедии:
Вы можете думать о двух осях как о затратах, которые должны быть понесены для работы двоичного классификатора. В идеале вы хотите получить как можно меньше ложных срабатываний, насколько это возможно. То есть вы хотите, чтобы двоичный классификатор вызывал как можно меньше ложных срабатываний для максимально возможного количества истинных положительных результатов.
Чтобы конкретизировать, представьте классификатор, который может определить наличие определенного заболевания путем измерения количества какого-либо биомаркера. Представьте, что биомаркер имел значение в диапазоне от 0 (отсутствует) до 1 (насыщенный). Какой уровень максимизирует выявление заболевания? Это может быть случай, когда выше некоторого уровня биомаркер классифицирует некоторых людей как имеющих болезнь, но у них нет болезни. Это ложные срабатывания. Тогда, конечно, есть те, кто будет классифицирован как имеющий болезнь, когда у них действительно есть болезнь. Это настоящие плюсы.
РПЦ оценивает долю истинных положительных результатов среди всех положительных результатов в сравнении с долей ложных положительных результатов с учетом всех возможных пороговых значений.
источник