Выбор модели: логистическая регрессия

13

Предположим, у нас есть ковариат x 1 , , x n и двоичная переменная результата y . Некоторые из этих ковариат являются категориальными с несколькими уровнями. Другие непрерывны. Как бы вы выбрали «лучшую» модель? Другими словами, как вы выбираете, какие ковариаты включить в модель?nx1,,xny

Будете ли вы моделировать с каждым из ковариат по отдельности, используя простую логистическую регрессию, и выбрать те, которые имеют значительную связь?y

Томас
источник
1
В дополнение к моему ответу ниже (или другим, если они появятся), в следующем есть хорошее обсуждение выбора модели (хотя и не сфокусированного на логистической регрессии как таковой) stats.stackexchange.com/questions/18214/…
- Восстановить Монику
2
Я процитирую @jthetzel из недавнего комментария на этом сайте: «Хороший вопрос, но тот, который большинство здесь изучал в течение семестровых университетских курсов, а некоторые провели карьеру, изучая». Это все равно, что сидеть с человеком и говорить: «Можете ли вы научить меня суахили сегодня днем?» Не то, чтобы Гунг не делал хороших замечаний в своем ответе. Это просто огромная территория.
rolando2
2
Это также ветка, которая, хотя и для очень конкретного вопроса, содержит несколько общих советов от меня: stats.stackexchange.com/questions/17068/… Я также изложу свои мысли ниже.
Fomite
Итак, я думаю, что я просто буду использовать AIC в качестве критерия. Полная модель имеет самый низкий AIC. Также AIC довольно сильно отличаются друг от друга.
Томас

Ответы:

10

Это, вероятно, не очень хорошая вещь. Рассмотрение сначала всех отдельных ковариат, а затем построение модели с существенными значениями логически эквивалентно процедуре автоматического поиска. Хотя этот подход интуитивно понятен, выводы, сделанные из этой процедуры, недействительны (например, истинные значения p отличаются от тех, которые сообщаются программным обеспечением). Проблема увеличивается с увеличением размера исходного набора ковариат. Если вы все равно сделаете это (и, к сожалению, многие люди это делают), вы не сможете серьезно относиться к полученной модели. Вместо этого вы должны провести совершенно новое исследование, собирая независимую выборку и подбирая предыдущую модель, чтобы протестировать ее. Тем не менее, это требует много ресурсов, и более того, поскольку процесс имеет недостатки и предыдущая модель, вероятно, плохая,тратить много ресурсов.

Лучший способ - оценить модели, представляющие для вас интерес. Затем используйте информационный критерий, который наказывает за гибкость модели (например, AIC) для вынесения решения среди этих моделей. Для логистической регрессии AIC:

AяСзнак равно-2×пер(вероятность)+2К

где - число ковариат, включенных в эту модель. Вы хотите модель с наименьшим значением для AIC, при прочих равных условиях. Однако это не всегда так просто; Будьте осторожны, когда несколько моделей имеют одинаковые значения для AIC, даже если одна из них может быть самой низкой. К

Я включил полную формулу для AIC здесь, потому что различное программное обеспечение выводит различную информацию. Возможно, вам придется рассчитать его только по вероятности, или вы можете получить окончательный AIC, или что-то среднее.

Gung - Восстановить Монику
источник
6
Мне нравится AIC, но имейте в виду, что вычисление AIC на более чем 2 заранее заданных моделях приводит к проблеме множественности.
Фрэнк Харрелл
1
@FrankHarrell хороший совет!
gung - Восстановить Монику
9

Есть много способов выбрать, какие переменные идут в регрессионной модели, некоторые достойные, некоторые плохие, а некоторые ужасные. Можно просто просмотреть публикации Sander Greenland, многие из которых касаются выбора переменных.

Вообще говоря, у меня есть несколько общих «правил»:

  • Автоматизированные алгоритмы, такие как те, которые входят в пакеты программного обеспечения, вероятно, плохая идея.
  • Использование модельных методов диагностики, как подсказывает ганг, является хорошим средством оценки вашего выбора переменных.
  • Вы также должны использовать комбинацию предметного опыта, поисков литературы, направленных ациклических графов и т. Д., Чтобы информировать о своем выборе переменных.
фомиты
источник
3
Хорошо, особенно пункты 1 и 3. Методы диагностики модели могут привести к невозможности сохранить ошибку типа I.
Фрэнк Харрелл
3
Хорошо поставь @Epigrad. Я бы добавил одно замечание. Автоматизированные алгоритмы становятся очень привлекательными, когда ваша проблема становится большой. В некоторых случаях они могут быть единственным реальным способом выбора модели. Сейчас люди анализируют огромные наборы данных с тысячами потенциальных переменных и миллионами наблюдений. Какова экспертиза предмета в 1000-мерной интуиции? И вы обнаружите, что даже если вы сделаете это вручную (то есть с аналитиком), они, скорее всего, в конечном итоге создадут некоторые упрощенные правила для выбора переменных. Сложная часть - это на самом деле кодирование этих выборов.
вероятностная
1
@probabilityislogic Я бы с этим согласился. Честно говоря, я думаю, что традиционные методы плохо подходят для очень больших наборов данных, но тенденция прибегать к более подходящим методам тревожит меня. Если автоматизированный алгоритм может смещать набор данных с 10 переменными, нет никаких причин, по которым он не может смещать один с 10 000. В настоящее время упор делается на приобретении больших данных по его анализу в некоторых частях делает меня несколько пуглив.
Fomite
2
@probabilityislogic По иронии судьбы я теперь работаю с набором данных с более чем 10-ю тысячами потенциальных переменных>. <
Fomite
2

Как бы вы выбрали «лучшую» модель?

Недостаточно информации для ответа на этот вопрос; если вы хотите получить причинные воздействия на у вам необходимо реализовать регрессии , которые отражают то , что известно о смешению. Если вы хотите сделать прогноз, AIC будет разумным подходом.

Эти подходы не одинаковы; контекст определит, какой из (многих) способов выбора переменных будет более / менее подходящим.

гость
источник