Переоснащение модели логистической регрессии

28

Можно ли переоснастить модель логистической регрессии? Я видел видео, в котором говорилось, что если моя площадь под кривой ROC превышает 95%, то, скорее всего, она будет переопределена, но возможно ли переопределить модель логистической регрессии?

carlosedubarreto
источник
1
Можете ли вы сказать, какое видео, или, по крайней мере, дать немного больше контекста?
Glen_b
2
Конечно @Glen_b, видео было таким: ссылка Комментарий был на 40мин. Говорилось так: когда РПЦ имеет AUC от 0,5 до 0,6, это было плохо. Если между 0,6 и 0,7, это ниже среднего. Если между 0,7 и 0,75 это среднее / хорошо. Это 0,75 и 0,8, это хорошо. Если между 0,8 и 0,9 его отлично. Если оно выше 0,9, это подозрительно, а если выше 0,95, оно переизбрано. Я нашел это объяснение очень легко понять, но это правильно? Потому что я ищу что-то, чтобы поддержать эту мысль, но я не нахожу.
Карлоседубаррето
И Glen_B, объяснение, которое дал @AdamO, кажется, что объяснение, которое я видел на видео, было не совсем правильным, но, возможно, я неправильно понял объяснение Адама. Эти вещи Statiscs очень сложны, но действительно приятно углубиться в это. :)
carlosedubarreto
Я думаю, что объяснение AdamO хорошее (я проголосовал за него), но вопросы должны быть постоянными ресурсами; более поздний читатель (например, кто-то с похожим вопросом) может захотеть узнать, что было сказано. Я думаю, что ваше описание в комментарии дает достаточно контекста для большинства людей, а ссылка подойдет для остальных. Так что спасибо тебе! Вы сделали свой вопрос более полезным.
Glen_b
Большое спасибо @Glen_b, я учусь использовать этот замечательный инструмент, который у нас есть (этот форум). Я буду помнить ваш совет, задавая новые вопросы.
carlosedubarreto

Ответы:

36

Да, вы можете превзойти модели логистической регрессии. Но сначала я бы хотел затронуть вопрос об AUC (область под кривой рабочих характеристик приемника): универсальных эмпирических правил для AUC не существует никогда, никогда.

То, что AUC - это вероятность того, что случайно выбранная положительная (или случай) будет иметь более высокое значение маркера, чем отрицательная (или контрольная), потому что AUC математически эквивалентна статистике U.

То, что AUC не является стандартизированной мерой точности прогнозирования. События с высокой степенью детерминированности могут иметь единичные предикторы AUC 95% или выше (например, в управляемой мехатронике, робототехнике или оптике), в некоторых сложных многопараметрических моделях прогнозирования логистического риска AUC равны 64% или ниже, например прогнозирование риска рака молочной железы. Достаточно высокий уровень точности прогнозирования.

Разумное значение AUC, как и в случае анализа мощности, предопределяется путем сбора знаний об основах и целях исследования ariori . Врач / инженер описывает, чего они хотят, и вы, статистик, выбираете целевое значение AUC для вашей прогностической модели. Затем начинается расследование.

Действительно возможно переоснастить модель логистической регрессии. Помимо линейной зависимости (если матрица модели имеет недостающий ранг), вы также можете иметь идеальное соответствие, или это график подгоночных значений по отношению к Y, что отлично различает случаи и элементы управления. В этом случае ваши параметры не сходятся, а просто находятся где-то на граничном пространстве, что дает вероятность . Иногда, однако, AUC равен 1 случайно.

Существует еще один тип смещения, возникающий из-за добавления в модель слишком большого количества предикторов, и это небольшой выборочный уклон. В целом, логарифмические отношения шансов модели логистической регрессии имеют тенденцию к смещенному фактору из-за неослабности отношения шансов и нулевого числа клеток. Вывод, это обрабатывается с использованием условной логистической регрессии для контроля смешанных и точных переменных в стратифицированных анализах. Тем не менее, в прогнозе, вы SOOL. Обобщаемого прогноза не существует, если у вас есть p n π ( 1 - π ) , ( π = Prob ( Y = 1 )2βpnπ(1π)π=Prob(Y=1)) потому что вы гарантированно смоделировали «данные», а не «тренд» в этой точке. Высокоразмерный (большой ) прогноз двоичных результатов лучше выполнять с помощью методов машинного обучения. Понимание линейного дискриминантного анализа, частичных наименьших квадратов, прогнозирования ближайших соседей, форсирования и случайных лесов будет очень хорошим началом.p

Adamo
источник
Когда вы говорите, y , я думаю, вы имеете в виду долю времени, когда у = 1? А не сумма количества раз, что у = 1?
generic_user
Это сбивало с толку, p - это число параметров в модели, теперь я использую для пропорции. Спасибо что подметил это. π
AdamO
Как вы определяете подходящее значение AUC для достижения цели?
Кевин Х. Лин
1
@ KevinH.Lin Это зависит от характера вопроса. Чем больше вы включите соответствующие контекстуальные знания, тем лучше. Это будет лежать в основе распространенности или бремени болезней или состояний, которые оценивает модель, эффективности существующих (конкурирующих) моделей, компромиссов эффективности затрат и политики, связанной с принятием новых практик и / или рекомендаций. Ничто в этом не является черным и белым, но, как и во многих других вещах, вам необходимо убедительно спорить, чтобы убедить и аргументировать в пользу значения AUC, которое вы, как статистик, заранее указываете.
AdamO
1
@ KevinH.Lin Я не думаю, что какой-либо действительный ответ будет таким же ясным и лаконичным, как тот, который вам нужен. Это все равно что спросить: "Какую машину мне купить?" :) Я предлагаю вам ознакомиться со статьями, в которых исследовались AUC в соответствующей области исследований, которая вас интересует. Я работал в основном на моделях прогнозирования риска для рака молочной железы и, благодаря работам Tice, Gail и Barlow, среди прочих видел, что AUC 0,65 очень привлекательна для популяционных моделей прогнозирования, у которых распространенность составляет менее 1-20 случаев. на 5000 человеко-лет риска с использованием 7 факторов риска с 1,5 и 3
руб.
6

Говоря простыми словами ... перегруженная модель логистической регрессии имеет большую дисперсию, что означает изменение границ решения в основном при небольшом изменении переменной величины. Рассмотрим следующее изображение, наиболее правым является переоснащенная логистическая модель, границы решения которой не имеют большого значения. из взлетов и падений, в то время как средний из них просто подходит, он имеет умеренную дисперсию и умеренный уклон. левый нижний - у него высокий уклон, но очень меньший разброс. Еще одна вещь. У переоснащенной модели регрерации слишком много функций, в то время как у модели с минимальными затратами очень мало. функций. изображение, демонстрирующее модель underfit, justfit и overfit.  Голубой окрашенный маркер показывает границы решения.

user110267
источник
8
Пожалуйста, добавьте ссылку на изображение (на самом деле курс Эндрю Нг).
Александр Родин
5

Вы можете использовать любой метод, даже если вы подходите всему населению (если оно ограничено). Существует два основных решения этой проблемы: (1) оценка максимального правдоподобия (штраф за регрессию гребня, упругая сеть, лассо и т. Д.) И (2) использование информативных априорных значений в байесовской модели.

YYYY

Фрэнк Харрелл
источник
4

Есть ли какая-то модель, оставив в стороне логистическую регрессию, которую невозможно переоснастить?

Переоснащение возникает в основном потому, что вы подходите для выборки, а не для всего населения. Артефакты из вашей выборки могут показаться особенностями населения, и они не являются, и, следовательно, переоснащение причиняет боль.

Это сродни вопросу внешней действительности. Используя только образец, вы пытаетесь получить модель, которая дает вам наилучшую производительность в реальной популяции, которую вы не видите.

Несомненно, некоторые модельные формы или процедуры имеют больше шансов переодеться, чем другие, но ни одна модель никогда не будет действительно защищена от переоснащения, не так ли?

Даже проверка вне образца, процедуры регуляризации и т. Д. Могут только защитить от переоснащения, но серебряной пули нет. На самом деле, если оценивать уверенность в том, что можно сделать прогноз в реальном мире на основе подобранной модели, нужно всегда предполагать, что некоторая степень переоснащения действительно имела место.

В какой степени это может отличаться, но даже модель, проверенная на наборе данных с задержкой, редко дает результаты в режиме реального времени, которые совпадают с данными, полученными на наборе данных с удержанием. И переоснащение является большим причинным фактором.

curious_cat
источник
0

То, что мы делаем с Roc для проверки переоснащения, - это случайное разделение набора данных при обучении и валидации и сравнение AUC между этими группами. Если AUC «намного» (также нет большого правила) больше в тренировках, то может быть переобучение.

Мария Фрэнсис Гаска
источник