Меня смущает предположение о линейности логита для переменных непрерывного предиктора в логистическом регрессионном анализе. Нужно ли проверять линейные отношения при проверке потенциальных предикторов с использованием анализа неизменяемой логистической регрессии?
В моем случае я использую множественный логистический регрессионный анализ для выявления факторов, связанных с состоянием питания (дихотомический результат) среди участников. Непрерывные переменные, включая возраст, показатель сопутствующей патологии по Чарльсону, показатель по индексу Бартела, силу захвата руки, показатель GDS, ИМТ и т. Д. Мой первый шаг - отыскать значимые переменные с помощью простой логистической регрессии. Нужно ли проверять допущение линейности во время простого анализа логистической регрессии для каждой непрерывной переменной? Или я должен просто проверить это в окончательной модели множественной логистической регрессии?
Кроме того, для моего понимания нам нужно преобразовать нелинейную непрерывную переменную, прежде чем вводить ее в модель. Могу ли я классифицировать нелинейную непрерывную переменную вместо преобразования?
источник
Ответы:
Как я подробно описываю в своей книге « Стратегии регрессионного моделирования» (2-е издание, доступное 2015-09-04, электронная книга, доступная сейчас), процесс попыток преобразования переменных до моделирования сопровождается проблемами, одной из наиболее важных из которых является искажение ошибки типа I и доверительные интервалы. Категоризация вызывает еще более серьезные проблемы, особенно отсутствие соответствия и произвол.
Вместо того, чтобы думать об этом как о проблеме «проверки на отсутствие соответствия», лучше думать о ней как об указании модели, которая, скорее всего, подойдет. Одним из способов сделать это является распределение параметров между частями модели, которые, вероятно, будут сильными и для которых линейность еще не известна как разумное предположение. В этом процессе проверяется эффективный размер выборки (в вашем случае - минимальное количество событий и количество не-событий) и допускается сложность в той степени, в какой это позволяет информационное наполнение данных (например, с помощью правила 15: 1 events: параметр большого пальца). Предварительно указав гибкую аддитивную параметрическую модель, можно ошибиться только тогда, когда это важно, исключив важные взаимодействия. В целом, взаимодействие должно быть заранее определено.
Вы можете проверить, нужна ли нелинейность в модели с формальным тестом (это легко сделать с помощью
rms
пакета R ), но удалив такие термины, когда незначительное значение приводит к выводным искажениям, которые я описал выше.Более подробную информацию можно найти в примечаниях к курсу, связанных с http://biostat.mc.vanderbilt.edu/rms .
источник
Логистическая регрессия НЕ предполагает линейной зависимости между зависимой и независимой переменными. Предполагается, что между логарифмическими коэффициентами зависимой переменной и независимых переменных существует линейная зависимость (Это в основном проблема с непрерывными независимыми переменными.) Существует тест, называемый Box-Tidwell, который вы можете использовать для этого. Команда stata - это boxtid. Я не знаю команду SPSS, извините.
Это может помочь - http://www.ats.ucla.edu/stat/stata/webbooks/logistic/chapter3/statalog3.htm
источник
Я думаю, что мы должны построить непрерывные переменные и проверить линейность, прежде чем использовать их в регрессионной модели. Если линейность кажется разумным допущением, я думаю, что в большинстве случаев это, вероятно, будет сохраняться в окончательной модели многомерной регрессии, а если нет, я думаю, что это может быть вызвано прежде всего эффектами взаимодействия, которые вы можете исправить.
Да, классификация нелинейных непрерывных переменных является одним из вариантов. Проблемы с этим заключаются в том, что категории могут в большинстве случаев казаться произвольными, а небольшие различия в пороговых значениях между категориями могут приводить к разным результатам (особенно в отношении статистической значимости), а также в зависимости от количества категорий и размера ваших данных. Вы можете потерять много ценной информации в данных.
Альтернативный подход заключается в использовании обобщенной аддитивной модели, которая представляет собой регрессионную модель, которая может быть указана как логистическая регрессия, но в которой вы можете включить нелинейные независимые переменные в качестве «более гладких функций». Технически, это не очень сложно в R, но я не знаю о других программных пакетах. Эти модели будут определять нелинейные отношения с зависимыми переменными, но недостатком может быть то, что вы не получите аккуратные и аккуратные числа в своем выводе, а скорее визуальную кривую, которая проверяется на статистическую значимость. Таким образом, все зависит от того, насколько вы заинтересованы в количественном определении влияния нелинейной переменной на конечную переменную.
Наконец, вы можете использовать обобщенные аддитивные модели, как описано выше, чтобы проверить допущения линейности в вашей модели логистической регрессии, по крайней мере, если вы используете R.
Взгляните на эту книгу (очень отличную от вашей и моей, но это не имеет значения): http://www.amazon.com/Effects-Extensions-Ecology-Statistics-Biology/dp/0387874577 / исх = sr_1_1? т = UTF8 & QID = 1440928328 & стер = 8-1 & ключевые слова = zuur + экология
источник
Поскольку я не знаю ваших данных, я не знаю, будет ли объединение этих трех переменных - основной переменной, ее натурального логарифма и интерактивного термина - проблемой. Тем не менее, я знаю, что в прошлом, когда я рассматривал объединение трех терминов, я часто терял концептуальное представление о том, что я измеряю. Вам нужно хорошо разбираться в том, что вы измеряете, иначе у вас возникнут проблемы с объяснением ваших результатов. Надеюсь, это поможет!
источник