Почему отсечение P> 0,5 не является «оптимальным» для логистической регрессии?

13

ПРЕДИСЛОВИЕ: Меня не волнуют преимущества использования отсечки или нет, или как выбрать отсечение. Мой вопрос чисто математический и из любопытства.

Логистическая регрессия моделирует апостериорную условную вероятность класса A по сравнению с классом B, и она соответствует гиперплоскости, где апостериорные условные вероятности равны. Таким образом, в теории я понял, что точка классификации 0,5 минимизирует общее количество ошибок независимо от установленного баланса, поскольку она моделирует апостериорную вероятность (при условии, что вы постоянно сталкиваетесь с одним и тем же классовым соотношением).

В моем примере из реальной жизни я получаю очень низкую точность, используя P> 0,5 в качестве моей классифицирующей отсечки (точность около 51%). Однако, когда я посмотрел на AUC, он выше 0,99. Поэтому я посмотрел на некоторые другие значения отсечения и обнаружил, что P> 0,6 дал мне 98% точности (90% для меньшего класса и 99% для большего класса) - только 2% случаев были неправильно классифицированы.

Классы сильно разбалансированы (1: 9), и это проблема большого размера. Однако я распределил классы поровну для каждого набора перекрестной проверки, чтобы не было разницы между балансом классов между подбором модели и последующим прогнозированием. Я также попытался использовать те же данные из модели и прогнозов, и возникла та же проблема.

Меня интересует причина, по которой 0.5 не минимизирует ошибки, я подумал, что это будет сделано специально, если модель будет соответствовать минимальным потерям в перекрестной энтропии.

У кого-нибудь есть отзывы о том, почему это происходит? Это связано с добавлением наказания, может кто-нибудь объяснить, что происходит, если так?

felix000
источник
2
См. Stats.stackexchange.com/search?q=user%3A4253+cutoff
Scortchi - Восстановить Монику
Scortchi, не могли бы вы быть более конкретным в отношении того, какой вопрос об ограничениях вы считаете актуальным? Я не видел ни соответствующего вопроса, ни ответа ни до публикации, ни сейчас.
felix000
Извините, я не имел в виду, что они все ответили на ваш вопрос, но я подумал, что все они уместны, предлагая не использовать точность при любом срезе в качестве показателя производительности или, по крайней мере, не произвольное сечение, не рассчитанное из утилиты функция.
Scortchi - Восстановить Монику

Ответы:

16

Вам не нужно получать предсказанные категории из модели логистической регрессии. Это может быть хорошо остаться с предсказанными вероятностями. Если вы получаете прогнозируемые категории, вы не должны использовать эту информацию для каких-либо действий, кроме как сказать «это наблюдение лучше всего классифицировать в эту категорию». Например, вы не должны использовать «точность» / процент правильных для выбора модели.

Сказав эти вещи, редко будет оптимальным порогом для классификации наблюдений. Чтобы получить интуитивное представление о том, как это может произойти, представьте, что у вас с наблюдениями в положительной категории. Простая модель только для перехвата может легко иметь ложных негативов, если вы используете качестве отсечки. С другой стороны, если бы вы просто назвали все положительным, у вас был бы ложный положительный результат, но правильный на . .50N=1009949.50199%

В более общем смысле, логистическая регрессия пытается подогнать истинную вероятность, положительную для наблюдений, как функцию объясняющих переменных. Он не пытается максимизировать точность путем центрирования прогнозируемых вероятностей вокруг . Если ваша выборка не является положительной на , то нет никаких причин, чтобы % максимально увеличивали процент..5050%.50

Gung - Восстановить Монику
источник
Привет, спасибо за ваше объяснение, однако я не получаю пример с моделью только для перехвата. С моделью только для перехвата у вас будет 0,99 для любых примеров, и поэтому вы будете иметь точность 99%, принимая любое пороговое значение.
abcdaire
0

Я думаю, это может быть из-за нескольких причин:

  1. В ваших данных может быть нелинейность, поэтому линейное добавление весов может не всегда приводить к правильной вероятности
  2. Переменные представляют собой сочетание хороших и слабых предикторов, поэтому оценочная совокупность, составляющая около 0,5, обусловлена ​​слабыми предикторами или меньшим влиянием сильных предикторов. Когда вы идете выше, вы получаете людей, для которых влияние предикторов является сильным

Таким образом, вам, возможно, придется иногда поиграть с предельным значением, чтобы максимизировать желаемый результат, такой как точность, точность и т. Д. Поскольку большая часть времени не очень однородна.

user124690
источник