Исследование устойчивости логистической регрессии к нарушению линейности логита

10

Я провожу логистическую регрессию с бинарным исходом (старт и не старт). Все мои предикторы - это либо непрерывные, либо дихотомические переменные.

Используя подход Бокса-Тидвелла, один из моих непрерывных предикторов потенциально нарушает предположение о линейности логита. В статистике соответствия качества нет никаких признаков того, что подбор проблематичен.

Впоследствии я снова запустил регрессионную модель, заменив исходную непрерывную переменную: во-первых, преобразованием квадратного корня и, во-вторых, дихотомической версией переменной.

При проверке выходных данных кажется, что качество соответствия незначительно улучшается, но остатки становятся проблематичными. Оценки параметров, стандартные ошибки и остаются относительно похожими. Интерпретация данных не меняется с точки зрения моей гипотезы, по 3 моделям.exp(β)

Поэтому, с точки зрения полезности моих результатов и смысла интерпретации данных, представляется целесообразным сообщить регрессионную модель с использованием исходной непрерывной переменной.

Мне интересно это:

  1. Когда логистическая регрессия устойчива к потенциальному нарушению линейности логитного предположения?
  2. Учитывая приведенный выше пример, кажется ли приемлемым включение исходной непрерывной переменной в модель?
  3. Существуют ли какие-либо ссылки или руководства для того, чтобы рекомендовать, когда удовлетворительно признать, что модель устойчива к потенциальному нарушению линейности логита?
Короткая Элизабет
источник

Ответы:

16

Предположение о линейности настолько часто нарушается в регрессии, что его следует называть скорее неожиданностью, чем предположением. Как и другие регрессионные модели, логистическая модель не устойчива к нелинейности, когда вы ложно предполагаете линейность. Вместо того, чтобы обнаруживать нелинейность, используя остаточные или всесторонние критерии соответствия, лучше использовать прямые тесты. Например, разверните непрерывные предикторы, используя сплайны регрессии, и выполните комплексный тест всех нелинейных терминов. Лучше все же не проверять условия и просто ожидать нелинейности. Этот подход намного лучше, чем пробовать разные варианты преобразования с одним уклоном, такие как квадратный корень, логарифм и т. Д., Потому что статистический вывод, возникающий после такого анализа, будет неверным, поскольку он не имеет достаточно больших степеней свободы числителя.

Вот пример в R.

require(rms)
f <- lrm(y ~ rcs(age,4) + rcs(blood.pressure,5) + sex + rcs(height,4))
# Fits restricted cubic splines in 3 variables with default knots
# 4, 5, 4 knots = 2, 3, 2 nonlinear terms
Function(f)   # display algebraic form of fit
anova(f)      # obtain individual + combined linearity tests
Фрэнк Харрелл
источник
Ваш ответ имеет фантастический смысл - спасибо! Не могли бы вы предложить синтаксис для использования в SPSS? У меня, к сожалению, нет доступа (или навыков) для использования R.
Шорт Элизабет
1
Определенно стоит потратить время на изучение R, и у меня есть много материалов, связанных с логистическим моделированием и пакетом rms. Это было бы трудно сделать в SPSS.
Фрэнк Харрелл
@FrankHarrell: f <- lrm(y ~ ...строка выдает ошибку object 'y' not found- вы можете исправить?
Ариэльф
1
Это очень простая ошибка R, не уникальная для моего rmsпакета. Потратьте некоторое время на знакомство с R, начиная с обширного материала, доступного для базовой lmфункции регрессии .
Фрэнк Харрелл
1
Примеры, встроенные в справочные страницы программного обеспечения, имитируют такие данные, поэтому посмотрите на весь пример в контексте. Сделай require(rms)тогда ?lrmтогдаexamples(lrm)
Фрэнк Харрелл