Предположим, у нас есть ковариат x 1 , … , x n и двоичная переменная результата y . Некоторые из этих ковариат являются категориальными с несколькими уровнями. Другие непрерывны. Как бы вы выбрали «лучшую» модель? Другими словами, как вы выбираете, какие ковариаты включить в модель?
Будете ли вы моделировать с каждым из ковариат по отдельности, используя простую логистическую регрессию, и выбрать те, которые имеют значительную связь?
Ответы:
Это, вероятно, не очень хорошая вещь. Рассмотрение сначала всех отдельных ковариат, а затем построение модели с существенными значениями логически эквивалентно процедуре автоматического поиска. Хотя этот подход интуитивно понятен, выводы, сделанные из этой процедуры, недействительны (например, истинные значения p отличаются от тех, которые сообщаются программным обеспечением). Проблема увеличивается с увеличением размера исходного набора ковариат. Если вы все равно сделаете это (и, к сожалению, многие люди это делают), вы не сможете серьезно относиться к полученной модели. Вместо этого вы должны провести совершенно новое исследование, собирая независимую выборку и подбирая предыдущую модель, чтобы протестировать ее. Тем не менее, это требует много ресурсов, и более того, поскольку процесс имеет недостатки и предыдущая модель, вероятно, плохая,тратить много ресурсов.
Лучший способ - оценить модели, представляющие для вас интерес. Затем используйте информационный критерий, который наказывает за гибкость модели (например, AIC) для вынесения решения среди этих моделей. Для логистической регрессии AIC:
где - число ковариат, включенных в эту модель. Вы хотите модель с наименьшим значением для AIC, при прочих равных условиях. Однако это не всегда так просто; Будьте осторожны, когда несколько моделей имеют одинаковые значения для AIC, даже если одна из них может быть самой низкой.К
Я включил полную формулу для AIC здесь, потому что различное программное обеспечение выводит различную информацию. Возможно, вам придется рассчитать его только по вероятности, или вы можете получить окончательный AIC, или что-то среднее.
источник
Есть много способов выбрать, какие переменные идут в регрессионной модели, некоторые достойные, некоторые плохие, а некоторые ужасные. Можно просто просмотреть публикации Sander Greenland, многие из которых касаются выбора переменных.
Вообще говоря, у меня есть несколько общих «правил»:
источник
Как бы вы выбрали «лучшую» модель?
Недостаточно информации для ответа на этот вопрос; если вы хотите получить причинные воздействия на у вам необходимо реализовать регрессии , которые отражают то , что известно о смешению. Если вы хотите сделать прогноз, AIC будет разумным подходом.
Эти подходы не одинаковы; контекст определит, какой из (многих) способов выбора переменных будет более / менее подходящим.
источник