ПРЕДИСЛОВИЕ: Меня не волнуют преимущества использования отсечки или нет, или как выбрать отсечение. Мой вопрос чисто математический и из любопытства.
Логистическая регрессия моделирует апостериорную условную вероятность класса A по сравнению с классом B, и она соответствует гиперплоскости, где апостериорные условные вероятности равны. Таким образом, в теории я понял, что точка классификации 0,5 минимизирует общее количество ошибок независимо от установленного баланса, поскольку она моделирует апостериорную вероятность (при условии, что вы постоянно сталкиваетесь с одним и тем же классовым соотношением).
В моем примере из реальной жизни я получаю очень низкую точность, используя P> 0,5 в качестве моей классифицирующей отсечки (точность около 51%). Однако, когда я посмотрел на AUC, он выше 0,99. Поэтому я посмотрел на некоторые другие значения отсечения и обнаружил, что P> 0,6 дал мне 98% точности (90% для меньшего класса и 99% для большего класса) - только 2% случаев были неправильно классифицированы.
Классы сильно разбалансированы (1: 9), и это проблема большого размера. Однако я распределил классы поровну для каждого набора перекрестной проверки, чтобы не было разницы между балансом классов между подбором модели и последующим прогнозированием. Я также попытался использовать те же данные из модели и прогнозов, и возникла та же проблема.
Меня интересует причина, по которой 0.5 не минимизирует ошибки, я подумал, что это будет сделано специально, если модель будет соответствовать минимальным потерям в перекрестной энтропии.
У кого-нибудь есть отзывы о том, почему это происходит? Это связано с добавлением наказания, может кто-нибудь объяснить, что происходит, если так?
Ответы:
Вам не нужно получать предсказанные категории из модели логистической регрессии. Это может быть хорошо остаться с предсказанными вероятностями. Если вы получаете прогнозируемые категории, вы не должны использовать эту информацию для каких-либо действий, кроме как сказать «это наблюдение лучше всего классифицировать в эту категорию». Например, вы не должны использовать «точность» / процент правильных для выбора модели.
Сказав эти вещи, редко будет оптимальным порогом для классификации наблюдений. Чтобы получить интуитивное представление о том, как это может произойти, представьте, что у вас с наблюдениями в положительной категории. Простая модель только для перехвата может легко иметь ложных негативов, если вы используете качестве отсечки. С другой стороны, если бы вы просто назвали все положительным, у вас был бы ложный положительный результат, но правильный на .+0,50 N= 100 99 49 +0,50 1 99 %
В более общем смысле, логистическая регрессия пытается подогнать истинную вероятность, положительную для наблюдений, как функцию объясняющих переменных. Он не пытается максимизировать точность путем центрирования прогнозируемых вероятностей вокруг . Если ваша выборка не является положительной на , то нет никаких причин, чтобы % максимально увеличивали процент.+0,50 50 % +0,50
источник
Я думаю, это может быть из-за нескольких причин:
Таким образом, вам, возможно, придется иногда поиграть с предельным значением, чтобы максимизировать желаемый результат, такой как точность, точность и т. Д. Поскольку большая часть времени не очень однородна.
источник