Почему отсечение P> 0,5 не является «оптимальным» для логистической регрессии?

13

ПРЕДИСЛОВИЕ: Меня не волнуют преимущества использования отсечки или нет, или как выбрать отсечение. Мой вопрос чисто математический и из любопытства.

Логистическая регрессия моделирует апостериорную условную вероятность класса A по сравнению с классом B, и она соответствует гиперплоскости, где апостериорные условные вероятности равны. Таким образом, в теории я понял, что точка классификации 0,5 минимизирует общее количество ошибок независимо от установленного баланса, поскольку она моделирует апостериорную вероятность (при условии, что вы постоянно сталкиваетесь с одним и тем же классовым соотношением).

В моем примере из реальной жизни я получаю очень низкую точность, используя P> 0,5 в качестве моей классифицирующей отсечки (точность около 51%). Однако, когда я посмотрел на AUC, он выше 0,99. Поэтому я посмотрел на некоторые другие значения отсечения и обнаружил, что P> 0,6 дал мне 98% точности (90% для меньшего класса и 99% для большего класса) - только 2% случаев были неправильно классифицированы.

Классы сильно разбалансированы (1: 9), и это проблема большого размера. Однако я распределил классы поровну для каждого набора перекрестной проверки, чтобы не было разницы между балансом классов между подбором модели и последующим прогнозированием. Я также попытался использовать те же данные из модели и прогнозов, и возникла та же проблема.

Меня интересует причина, по которой 0.5 не минимизирует ошибки, я подумал, что это будет сделано специально, если модель будет соответствовать минимальным потерям в перекрестной энтропии.

У кого-нибудь есть отзывы о том, почему это происходит? Это связано с добавлением наказания, может кто-нибудь объяснить, что происходит, если так?

logistic predictive-models unbalanced-classes felix000
источник

2

См. Stats.stackexchange.com/search?q=user%3A4253+cutoff

Scortchi - Восстановить Монику

Scortchi, не могли бы вы быть более конкретным в отношении того, какой вопрос об ограничениях вы считаете актуальным? Я не видел ни соответствующего вопроса, ни ответа ни до публикации, ни сейчас.

felix000

Извините, я не имел в виду, что они все ответили на ваш вопрос, но я подумал, что все они уместны, предлагая не использовать точность при любом срезе в качестве показателя производительности или, по крайней мере, не произвольное сечение, не рассчитанное из утилиты функция.

Scortchi - Восстановить Монику

16

Вам не нужно получать предсказанные категории из модели логистической регрессии. Это может быть хорошо остаться с предсказанными вероятностями. Если вы получаете прогнозируемые категории, вы не должны использовать эту информацию для каких-либо действий, кроме как сказать «это наблюдение лучше всего классифицировать в эту категорию». Например, вы не должны использовать «точность» / процент правильных для выбора модели.

Сказав эти вещи, редко будет оптимальным порогом для классификации наблюдений. Чтобы получить интуитивное представление о том, как это может произойти, представьте, что у вас с наблюдениями в положительной категории. Простая модель только для перехвата может легко иметь ложных негативов, если вы используете качестве отсечки. С другой стороны, если бы вы просто назвали все положительным, у вас был бы ложный положительный результат, но правильный на . $.50$ $N=100$ $99$ $49$ $.50$ $1$ $99\%$

В более общем смысле, логистическая регрессия пытается подогнать истинную вероятность, положительную для наблюдений, как функцию объясняющих переменных. Он не пытается максимизировать точность путем центрирования прогнозируемых вероятностей вокруг . Если ваша выборка не является положительной на , то нет никаких причин, чтобы % максимально увеличивали процент. $.50$ $50\%$ $.50$

Gung - Восстановить Монику
источник

Привет, спасибо за ваше объяснение, однако я не получаю пример с моделью только для перехвата. С моделью только для перехвата у вас будет 0,99 для любых примеров, и поэтому вы будете иметь точность 99%, принимая любое пороговое значение.

abcdaire

0

Я думаю, это может быть из-за нескольких причин:

В ваших данных может быть нелинейность, поэтому линейное добавление весов может не всегда приводить к правильной вероятности
Переменные представляют собой сочетание хороших и слабых предикторов, поэтому оценочная совокупность, составляющая около 0,5, обусловлена слабыми предикторами или меньшим влиянием сильных предикторов. Когда вы идете выше, вы получаете людей, для которых влияние предикторов является сильным

Таким образом, вам, возможно, придется иногда поиграть с предельным значением, чтобы максимизировать желаемый результат, такой как точность, точность и т. Д. Поскольку большая часть времени не очень однородна.

user124690
источник

Почему отсечение P> 0,5 не является «оптимальным» для логистической регрессии?

Ответы: