Как интерпретировать кривую ROC?

14

Я применил логистическую регрессию к своим данным в SAS, и вот кривая ROC и таблица классификации.

введите описание изображения здесь

Я доволен цифрами в таблице классификации, но не совсем уверен, что показывают кривая Рока и область под ней. Любое объяснение будет с благодарностью.

Гюнал
источник

Ответы:

22

Когда вы делаете логистическую регрессию, вам дают два класса, закодированные как и 0 . Теперь вы вычисляете вероятности того, что с учетом некоторых объяснительных переменных человек принадлежит к классу, закодированному как 1 . Если вы сейчас выберите порог вероятности и классифицируете всех людей с вероятностью, превышающей этот порог, как класс 1 и ниже как 010110в большинстве случаев вы допустите некоторые ошибки, потому что обычно две группы не могут быть точно различены. Для этого порога вы можете теперь вычислить свои ошибки и так называемую чувствительность и специфичность. Если вы сделаете это для многих порогов, вы можете построить кривую ROC, построив график чувствительности к 1-специфичности для многих возможных порогов. Область под кривой вступает в игру, если вы хотите сравнить различные методы, которые пытаются различить два класса, например, дискриминантный анализ или пробитную модель. Вы можете построить кривую ROC для всех этих моделей, и лучшую модель можно рассматривать как кривую с наибольшей площадью под кривой.

Если вам нужно получить более глубокое понимание, вы также можете прочитать ответ на другой вопрос о кривых ROC, нажав здесь.

случайный парень
источник
Чем область под кривой ROC отличается от правильной скорости в таблице классификации?
Гюнал
2
Таблица показывает только правильное и неправильное значение для одного порога. Тем не менее, кривая AUROC является мерой полного метода классификации и является правильной и неправильной для многих различных порогов.
random_guy
Рад это слышать!
random_guy
6

AUC в основном просто говорит вам, как часто случайный отбор из ваших предсказанных вероятностей ответа на ваших данных с 1 маркировкой будет больше, чем случайный отбор с ваших предсказанных вероятностей ответов от ваших данных с 0 метками.

jlemaitre
источник
6

Модель логистической регрессии является методом прямой оценки вероятности. Классификация не должна играть никакой роли в ее использовании. Любая классификация, не основанная на оценке полезности (функция потерь / затрат) по отдельным предметам, является неуместной, за исключением очень особых чрезвычайных ситуаций. Кривая ROC здесь не помогает; ни чувствительность, ни специфичность, которые, как и общая точность классификации, не являются ненадлежащими правилами оценки точности, оптимизированными фиктивной моделью, не соответствующей оценке максимального правдоподобия.

c15pYp0.05

Фрэнк Харрелл
источник
@Frank Harrell: Не могли бы вы рассказать о расчете относительно перехвата, а также комментарии относительно допустимой погрешности. Благодарность!
Джульет
@FrankHarrell, советуете ли вы, что нам нужны наблюдения не менее 15p, если мы в конечном итоге будем выполнять регрессию гребня для калибровки модели? Насколько я понимаю, мы заменим р на эффективную размерность.
Lepidopterist
Правильно, и я бы сказал, что вы используете штрафы, такие как квадратичный (ребристый) штраф, чтобы оценить параметры, что приводит к лучшей калибровке
Фрэнк Харрелл
4

Я не являюсь автором этого блога, и я нашел этот блог чрезвычайно полезным: http://fouryears.eu/2011/10/12/roc-area-under-the-curve-explained

Применяя это объяснение к вашим данным, средний положительный пример имеет около 10% отрицательных примеров, набранных выше, чем он.

Aerin
источник