У меня есть 100 000 наблюдений (9 фиктивных переменных индикатора) с 1000 положительных результатов. Логистическая регрессия должна работать нормально в этом случае, но вероятность отсечения озадачивает меня.
В обычной литературе мы выбираем 50% -ное сокращение, чтобы предсказать 1 и 0. Я не могу этого сделать, так как моя модель дает максимальное значение ~ 1%. Таким образом, порог может быть на уровне 0,007 или где-то около него.
Я понимаю ROC
кривые и то, как область под кривой может помочь мне выбрать между двумя моделями LR для одного и того же набора данных. Однако ROC не помогает мне выбрать оптимальную вероятность отсечения, которая может быть использована для тестирования модели на данных вне выборки.
Должен ли я просто использовать значение отсечения, которое минимизирует misclassification rate
? ( http://www2.sas.com/proceedings/sugi31/210-31.pdf )
Добавлено -> При таком низком уровне событий на мои показатели неправильной классификации влияет огромное количество ложных срабатываний. Несмотря на то, что показатель по всем кажется хорошим, так как общий размер вселенной также велик, но моя модель не должна иметь так много ложных срабатываний (как модель возврата инвестиций). 5/10 коэффициентов значимы.
Ответы:
Я не согласен с тем, что 50% -ое ограничение является либо изначально действительным, либо подтверждается литературой. Единственный случай, когда такое отключение может быть оправдано, - это схема «случай-контроль», где распространенность результата составляет ровно 50%, но даже тогда выбор будет зависеть от нескольких условий. Я думаю, что основным обоснованием выбора отсечки является желаемая рабочая характеристика диагностического теста.
Отсечка может быть выбрана для достижения желаемой чувствительности или специфичности. Для примера, обратитесь к литературе по медицинским устройствам. Чувствительность часто устанавливается на фиксированное значение: примеры включают 80%, 90%, 95%, 99%, 99,9% или 99,99%. Компромисс между чувствительностью и специфичностью следует сравнивать с вредом ошибок типа I и типа II. Часто, как и в случае статистического тестирования, вред от ошибки типа I больше, и поэтому мы контролируем этот риск. Тем не менее, этот вред редко поддается количественной оценке. В связи с этим у меня есть серьезные возражения против методов отбора, которые основаны на единственном показателе точности прогноза: они неверно показывают, что вред может и был количественно определен.
Ваша проблема слишком большого количества ложных срабатываний - пример обратного: ошибка типа II может быть более вредной. Затем вы можете установить порог для достижения желаемой специфичности и сообщить о достигнутой чувствительности на этом пороге.
Если вы обнаружите, что оба они слишком малы, чтобы быть приемлемыми для практики, ваша модель риска не работает, и ее следует отклонить.
Чувствительность и специфичность легко рассчитываются или выявляются из таблицы по всему диапазону возможных предельных значений. Проблема с ROC заключается в том, что в нем не указана конкретная информация об отсечении. Поэтому ROC не имеет значения для выбора предельного значения.
источник