Как выбрать вероятность отсечения для редкого события Логистическая регрессия

11

У меня есть 100 000 наблюдений (9 фиктивных переменных индикатора) с 1000 положительных результатов. Логистическая регрессия должна работать нормально в этом случае, но вероятность отсечения озадачивает меня.

В обычной литературе мы выбираем 50% -ное сокращение, чтобы предсказать 1 и 0. Я не могу этого сделать, так как моя модель дает максимальное значение ~ 1%. Таким образом, порог может быть на уровне 0,007 или где-то около него.

Я понимаю ROCкривые и то, как область под кривой может помочь мне выбрать между двумя моделями LR для одного и того же набора данных. Однако ROC не помогает мне выбрать оптимальную вероятность отсечения, которая может быть использована для тестирования модели на данных вне выборки.

Должен ли я просто использовать значение отсечения, которое минимизирует misclassification rate? ( http://www2.sas.com/proceedings/sugi31/210-31.pdf )

Добавлено -> При таком низком уровне событий на мои показатели неправильной классификации влияет огромное количество ложных срабатываний. Несмотря на то, что показатель по всем кажется хорошим, так как общий размер вселенной также велик, но моя модель не должна иметь так много ложных срабатываний (как модель возврата инвестиций). 5/10 коэффициентов значимы.

Мэдди
источник
3
Относительная стоимость двух видов ошибочной классификации вместе с их вероятностями должна определять отсечку. Если вы просто хотите проверить модель вероятности, рассчитайте ее оценку AUC или Brier применительно к тестовому набору.
Scortchi - Восстановить Монику
Это может быть хорошим ответом: stats.stackexchange.com/a/25398/5597
Tae-Sung Shin
Также соответствующие ответы здесь и здесь .
Scortchi - Восстановить Монику
@ Tae-SungShin Спасибо за ссылку. Это полезно. Я предполагаю, что нет определенного ответа на мой вопрос. Моя модель страдает от большого количества ложных срабатываний.
Мэдди
@ Scortchi Спасибо. Использование AUC могло бы быть полезным, если бы я сравнивал 2 разные модели логистической регрессии (с дополнительными предикторами), но я не уверен, как это поможет мне в моем случае. Это дает мне полную вероятность успеха моей модели, но не помогает выбрать вероятность отсечки.
Мэдди

Ответы:

5

Я не согласен с тем, что 50% -ое ограничение является либо изначально действительным, либо подтверждается литературой. Единственный случай, когда такое отключение может быть оправдано, - это схема «случай-контроль», где распространенность результата составляет ровно 50%, но даже тогда выбор будет зависеть от нескольких условий. Я думаю, что основным обоснованием выбора отсечки является желаемая рабочая характеристика диагностического теста.

Отсечка может быть выбрана для достижения желаемой чувствительности или специфичности. Для примера, обратитесь к литературе по медицинским устройствам. Чувствительность часто устанавливается на фиксированное значение: примеры включают 80%, 90%, 95%, 99%, 99,9% или 99,99%. Компромисс между чувствительностью и специфичностью следует сравнивать с вредом ошибок типа I и типа II. Часто, как и в случае статистического тестирования, вред от ошибки типа I больше, и поэтому мы контролируем этот риск. Тем не менее, этот вред редко поддается количественной оценке. В связи с этим у меня есть серьезные возражения против методов отбора, которые основаны на единственном показателе точности прогноза: они неверно показывают, что вред может и был количественно определен.

Ваша проблема слишком большого количества ложных срабатываний - пример обратного: ошибка типа II может быть более вредной. Затем вы можете установить порог для достижения желаемой специфичности и сообщить о достигнутой чувствительности на этом пороге.

Если вы обнаружите, что оба они слишком малы, чтобы быть приемлемыми для практики, ваша модель риска не работает, и ее следует отклонить.

Чувствительность и специфичность легко рассчитываются или выявляются из таблицы по всему диапазону возможных предельных значений. Проблема с ROC заключается в том, что в нем не указана конкретная информация об отсечении. Поэтому ROC не имеет значения для выбора предельного значения.

Adamo
источник