Как мне проверить предположение о линейности логита для непрерывных независимых переменных в логистическом регрессионном анализе?

13

Меня смущает предположение о линейности логита для переменных непрерывного предиктора в логистическом регрессионном анализе. Нужно ли проверять линейные отношения при проверке потенциальных предикторов с использованием анализа неизменяемой логистической регрессии?

В моем случае я использую множественный логистический регрессионный анализ для выявления факторов, связанных с состоянием питания (дихотомический результат) среди участников. Непрерывные переменные, включая возраст, показатель сопутствующей патологии по Чарльсону, показатель по индексу Бартела, силу захвата руки, показатель GDS, ИМТ и т. Д. Мой первый шаг - отыскать значимые переменные с помощью простой логистической регрессии. Нужно ли проверять допущение линейности во время простого анализа логистической регрессии для каждой непрерывной переменной? Или я должен просто проверить это в окончательной модели множественной логистической регрессии?

Кроме того, для моего понимания нам нужно преобразовать нелинейную непрерывную переменную, прежде чем вводить ее в модель. Могу ли я классифицировать нелинейную непрерывную переменную вместо преобразования?

Сце Лин Тан
источник
1
Не стоит категоризировать, лучше попробуйте сплайны!
kjetil b halvorsen

Ответы:

11

Как я подробно описываю в своей книге « Стратегии регрессионного моделирования» (2-е издание, доступное 2015-09-04, электронная книга, доступная сейчас), процесс попыток преобразования переменных до моделирования сопровождается проблемами, одной из наиболее важных из которых является искажение ошибки типа I и доверительные интервалы. Категоризация вызывает еще более серьезные проблемы, особенно отсутствие соответствия и произвол.

Вместо того, чтобы думать об этом как о проблеме «проверки на отсутствие соответствия», лучше думать о ней как об указании модели, которая, скорее всего, подойдет. Одним из способов сделать это является распределение параметров между частями модели, которые, вероятно, будут сильными и для которых линейность еще не известна как разумное предположение. В этом процессе проверяется эффективный размер выборки (в вашем случае - минимальное количество событий и количество не-событий) и допускается сложность в той степени, в какой это позволяет информационное наполнение данных (например, с помощью правила 15: 1 events: параметр большого пальца). Предварительно указав гибкую аддитивную параметрическую модель, можно ошибиться только тогда, когда это важно, исключив важные взаимодействия. В целом, взаимодействие должно быть заранее определено.

Вы можете проверить, нужна ли нелинейность в модели с формальным тестом (это легко сделать с помощью rmsпакета R ), но удалив такие термины, когда незначительное значение приводит к выводным искажениям, которые я описал выше.

Более подробную информацию можно найти в примечаниях к курсу, связанных с http://biostat.mc.vanderbilt.edu/rms .

Фрэнк Харрелл
источник
Извините, что не упомянул об этом ранее, но я не знаком с R и использовал SPSS для анализа. Из предоставленного решения означает ли это, что если я использую эффективный размер выборки (15: 1), я могу включить все важные факторы (из обзора), не проверяя их линейность?
Се Лин Тан
На основании анализа неизменяемой логистической регрессии, который я провел в моем случае, ИМТ, окружность голени, окружность среднего плеча вносят значительный вклад в модель простой логистической регрессии нутритивного статуса (р <0,05). Но оказалось, что они не соответствовали предположению о линейности, когда я проверял это предположение с использованием подхода Бокса-Тидвелла (для каждой простой логистической модели). Поэтому я не уверен, стоит ли мне переходить к множественному логистическому регрессионному анализу с этими предикторами или нет.
Се Лин Тан
5
Недопустимо строить модели на основе неизменного анализа. Вы используете вариант для продвижения ступенчатой ​​регрессии, которая, как известно, вызывает массу проблем.
Фрэнк Харрелл
8

Логистическая регрессия НЕ предполагает линейной зависимости между зависимой и независимой переменными. Предполагается, что между логарифмическими коэффициентами зависимой переменной и независимых переменных существует линейная зависимость (Это в основном проблема с непрерывными независимыми переменными.) Существует тест, называемый Box-Tidwell, который вы можете использовать для этого. Команда stata - это boxtid. Я не знаю команду SPSS, извините.

Это может помочь - http://www.ats.ucla.edu/stat/stata/webbooks/logistic/chapter3/statalog3.htm

user114667
источник
Ссылка не работает сейчас.
Алексей Куст
1

Я думаю, что мы должны построить непрерывные переменные и проверить линейность, прежде чем использовать их в регрессионной модели. Если линейность кажется разумным допущением, я думаю, что в большинстве случаев это, вероятно, будет сохраняться в окончательной модели многомерной регрессии, а если нет, я думаю, что это может быть вызвано прежде всего эффектами взаимодействия, которые вы можете исправить.

Да, классификация нелинейных непрерывных переменных является одним из вариантов. Проблемы с этим заключаются в том, что категории могут в большинстве случаев казаться произвольными, а небольшие различия в пороговых значениях между категориями могут приводить к разным результатам (особенно в отношении статистической значимости), а также в зависимости от количества категорий и размера ваших данных. Вы можете потерять много ценной информации в данных.

Альтернативный подход заключается в использовании обобщенной аддитивной модели, которая представляет собой регрессионную модель, которая может быть указана как логистическая регрессия, но в которой вы можете включить нелинейные независимые переменные в качестве «более гладких функций». Технически, это не очень сложно в R, но я не знаю о других программных пакетах. Эти модели будут определять нелинейные отношения с зависимыми переменными, но недостатком может быть то, что вы не получите аккуратные и аккуратные числа в своем выводе, а скорее визуальную кривую, которая проверяется на статистическую значимость. Таким образом, все зависит от того, насколько вы заинтересованы в количественном определении влияния нелинейной переменной на конечную переменную.

Наконец, вы можете использовать обобщенные аддитивные модели, как описано выше, чтобы проверить допущения линейности в вашей модели логистической регрессии, по крайней мере, если вы используете R.

Взгляните на эту книгу (очень отличную от вашей и моей, но это не имеет значения): http://www.amazon.com/Effects-Extensions-Ecology-Statistics-Biology/dp/0387874577 / исх = sr_1_1? т = UTF8 & QID = 1440928328 & стер = 8-1 & ключевые слова = zuur + экология

JonB
источник
Я не знаком с R и использовал SPSS для анализа. Извините, что не упомянул об этом ранее. Могу ли я использовать подход Бокса-Тидуэлла (создав термин взаимодействия между непрерывной переменной и ее собственным натуральным логарифмом и добавив термин взаимодействия в модель) для проверки предположения о линейности?
Се Лин Тан
1

Поскольку я не знаю ваших данных, я не знаю, будет ли объединение этих трех переменных - основной переменной, ее натурального логарифма и интерактивного термина - проблемой. Тем не менее, я знаю, что в прошлом, когда я рассматривал объединение трех терминов, я часто терял концептуальное представление о том, что я измеряю. Вам нужно хорошо разбираться в том, что вы измеряете, иначе у вас возникнут проблемы с объяснением ваших результатов. Надеюсь, это поможет!

user114667
источник