Когда вы делаете логистическую регрессию, вам дают два класса, закодированные как и 0 . Теперь вы вычисляете вероятности того, что с учетом некоторых объяснительных переменных человек принадлежит к классу, закодированному как 1 . Если вы сейчас выберите порог вероятности и классифицируете всех людей с вероятностью, превышающей этот порог, как класс 1 и ниже как 010110в большинстве случаев вы допустите некоторые ошибки, потому что обычно две группы не могут быть точно различены. Для этого порога вы можете теперь вычислить свои ошибки и так называемую чувствительность и специфичность. Если вы сделаете это для многих порогов, вы можете построить кривую ROC, построив график чувствительности к 1-специфичности для многих возможных порогов. Область под кривой вступает в игру, если вы хотите сравнить различные методы, которые пытаются различить два класса, например, дискриминантный анализ или пробитную модель. Вы можете построить кривую ROC для всех этих моделей, и лучшую модель можно рассматривать как кривую с наибольшей площадью под кривой.
Если вам нужно получить более глубокое понимание, вы также можете прочитать ответ на другой вопрос о кривых ROC, нажав здесь.
Чем область под кривой ROC отличается от правильной скорости в таблице классификации?
Гюнал
2
Таблица показывает только правильное и неправильное значение для одного порога. Тем не менее, кривая AUROC является мерой полного метода классификации и является правильной и неправильной для многих различных порогов.
random_guy
Рад это слышать!
random_guy
6
AUC в основном просто говорит вам, как часто случайный отбор из ваших предсказанных вероятностей ответа на ваших данных с 1 маркировкой будет больше, чем случайный отбор с ваших предсказанных вероятностей ответов от ваших данных с 0 метками.
Модель логистической регрессии является методом прямой оценки вероятности. Классификация не должна играть никакой роли в ее использовании. Любая классификация, не основанная на оценке полезности (функция потерь / затрат) по отдельным предметам, является неуместной, за исключением очень особых чрезвычайных ситуаций. Кривая ROC здесь не помогает; ни чувствительность, ни специфичность, которые, как и общая точность классификации, не являются ненадлежащими правилами оценки точности, оптимизированными фиктивной моделью, не соответствующей оценке максимального правдоподобия.
@Frank Harrell: Не могли бы вы рассказать о расчете относительно перехвата, а также комментарии относительно допустимой погрешности. Благодарность!
Джульет
@FrankHarrell, советуете ли вы, что нам нужны наблюдения не менее 15p, если мы в конечном итоге будем выполнять регрессию гребня для калибровки модели? Насколько я понимаю, мы заменим р на эффективную размерность.
Lepidopterist
Правильно, и я бы сказал, что вы используете штрафы, такие как квадратичный (ребристый) штраф, чтобы оценить параметры, что приводит к лучшей калибровке
AUC в основном просто говорит вам, как часто случайный отбор из ваших предсказанных вероятностей ответа на ваших данных с 1 маркировкой будет больше, чем случайный отбор с ваших предсказанных вероятностей ответов от ваших данных с 0 метками.
источник
Модель логистической регрессии является методом прямой оценки вероятности. Классификация не должна играть никакой роли в ее использовании. Любая классификация, не основанная на оценке полезности (функция потерь / затрат) по отдельным предметам, является неуместной, за исключением очень особых чрезвычайных ситуаций. Кривая ROC здесь не помогает; ни чувствительность, ни специфичность, которые, как и общая точность классификации, не являются ненадлежащими правилами оценки точности, оптимизированными фиктивной моделью, не соответствующей оценке максимального правдоподобия.
источник
Я не являюсь автором этого блога, и я нашел этот блог чрезвычайно полезным: http://fouryears.eu/2011/10/12/roc-area-under-the-curve-explained
Применяя это объяснение к вашим данным, средний положительный пример имеет около 10% отрицательных примеров, набранных выше, чем он.
источник