Когда я анализирую свои переменные в двух отдельных (одномерных) моделях логистической регрессии, я получаю следующее:
Predictor 1: B= 1.049, SE=.352, Exp(B)=2.85, 95% CI=(1.43, 5.69), p=.003
Constant: B=-0.434, SE=.217, Exp(B)=0.65, p=.046
Predictor 2: B= 1.379, SE=.386, Exp(B)=3.97, 95% CI=(1.86, 8.47), p<.001
Constant: B=-0.447, SE=.205, Exp(B)=0.64, p=.029
но когда я ввожу их в одну модель множественной логистической регрессии, я получаю:
Predictor 1: B= 0.556, SE=.406, Exp(B)=1.74, 95% CI=(0.79, 3.86), p=.171
Predictor 2: B= 1.094, SE=.436, Exp(B)=2.99, 95% CI=(1.27, 7.02), p=.012
Constant: B=-0.574, SE=.227, Exp(B)=0.56, p=.012
Оба предиктора являются дихотомическими (категориальными). Я проверил на мультиколлинеарность.
Я не уверен, предоставил ли я достаточно информации, но не могу понять, почему предиктор 1 перешел от существенного к незначительному и почему отношения шансов так различны в модели множественной регрессии. Кто-нибудь может дать базовое объяснение того, что происходит?
Ответы:
Есть несколько причин (ни одна из которых не связана конкретно с логистической регрессией, но может возникнуть при любой регрессии).
Корреляция регрессоров. Ваши регрессоры могут быть связаны друг с другом, эффективно измеряя нечто подобное. Скажем, ваша логит-модель заключается в объяснении состояния рынка труда (работает / не работает) в зависимости от опыта и возраста. По отдельности обе переменные положительно связаны со статусом, поскольку более опытным / старшим (исключая очень старых сотрудников ради аргумента) сотрудникам легче найти работу, чем недавним выпускникам. Теперь, очевидно, две переменные тесно связаны, так как вам нужно быть старше, чтобы иметь больше опыта. Следовательно, две переменные в основном «конкурируют» за объяснение статуса, что может, особенно в небольших выборках, привести к «проигрышу» обеих переменных, поскольку ни один из эффектов не может быть достаточно сильным и достаточно точно оцененным при контроле за другой, чтобы получить значимые оценки. По сути, вы спрашиваете: каков положительный эффект еще одного года опыта при сохранении возраста? В вашем наборе данных может быть очень мало сотрудников, чтобы ответить на этот вопрос, поэтому эффект будет неточно оценен, что приведет к большим значениям p.
Неопределенные модели: основная теория для t-статистики / p-значений требует, чтобы вы оценили правильно указанную модель. Теперь, если вы регрессируете только на одном предикторе, шансы довольно высоки, что эта одномерная модель страдает от пропущенного смещения переменной. Следовательно, все ставки на то, как ведут себя p-значения, отключены. По сути, вы должны быть осторожны, чтобы доверять им, когда ваша модель неверна.
источник
Нет особой причины, почему это не должно происходить. Множественная регрессия задает вопрос, отличный от простой регрессии. В частности, множественная регрессия (в данном случае множественная логистическая регрессия) спрашивает о взаимосвязи между зависимыми переменными и независимыми переменными, контролируя другие независимые переменные. Простая регрессия спрашивает о связи между зависимой переменной и (единственной) независимой переменной.
Если вы добавите контекст вашего исследования (например, каковы эти переменные?), Возможно, можно будет дать более конкретные ответы. Кроме того, учитывая, что все три переменные в вашем случае являются дихотомиями, вы можете довольно легко представить нам данные ... для суммирования требуется всего 8 строк:
и т.п.
источник