Как мы все знаем, есть 2 метода для оценки модели логистической регрессии, и они тестируют очень разные вещи
Прогнозирующая сила:
Получите статистику, которая измеряет, насколько хорошо вы можете предсказать зависимую переменную на основе независимых переменных. Хорошо известными псевдо R ^ 2 являются Макфадден (1974) и Кокс и Снелл (1989).
Статистика соответствия
Тест показывает, можно ли добиться большего успеха, усложняя модель, что фактически проверяет наличие нелинейностей или взаимодействий.
Я реализовал оба теста в своей модели, которые уже добавили квадратичность и взаимодействие
:>summary(spec_q2) Call: glm(formula = result ~ Top + Right + Left + Bottom + I(Top^2) + I(Left^2) + I(Bottom^2) + Top:Right + Top:Bottom + Right:Left, family = binomial()) Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.955431 8.838584 0.108 0.9139 Top 0.311891 0.189793 1.643 0.1003 Right -1.015460 0.502736 -2.020 0.0434 * Left -0.962143 0.431534 -2.230 0.0258 * Bottom 0.198631 0.157242 1.263 0.2065 I(Top^2) -0.003213 0.002114 -1.520 0.1285 I(Left^2) -0.054258 0.008768 -6.188 6.09e-10 *** I(Bottom^2) 0.003725 0.001782 2.091 0.0366 * Top:Right 0.012290 0.007540 1.630 0.1031 Top:Bottom 0.004536 0.002880 1.575 0.1153 Right:Left -0.044283 0.015983 -2.771 0.0056 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 3350.3 on 2799 degrees of freedom Residual deviance: 1984.6 on 2789 degrees of freedom AIC: 2006.6
и прогнозируемая мощность указана ниже, MaFadden равен 0,4004, и значение от 0,2 до 0,4 должно быть взято для обеспечения очень хорошего соответствия модели (Louviere et al (2000), Domenich and McFadden (1975)):
> PseudoR2(spec_q2)
McFadden Adj.McFadden Cox.Snell Nagelkerke McKelvey.Zavoina Effron Count Adj.Count
0.4076315 0.4004680 0.3859918 0.5531859 0.6144487 0.4616466 0.8489286 0.4712500
AIC Corrected.AIC
2006.6179010 2006.7125925
и статистика пригодности:
> hoslem.test(result,phat,g=8)
Hosmer and Lemeshow goodness of fit (GOF) test
data: result, phat
X-squared = 2800, df = 6, p-value < 2.2e-16
Насколько я понимаю, GOF фактически проверяет следующую нулевую и альтернативную гипотезу:
H0: The models does not need interaction and non-linearity
H1: The models needs interaction and non-linearity
Поскольку в моих моделях добавлено взаимодействие, нелинейность уже и значение p показывает, что H0 следует отклонить, поэтому я пришел к выводу, что моя модель нуждается во взаимодействии, в действительности нелинейность. Надеюсь, что моя интерпретация верна и спасибо за любые советы заранее, спасибо.
Ответы:
Есть несколько вопросов для решения.
rms
пакета R.residuals.lrm
rms
пакета R.Что касается последнего пункта, я предпочитаю философию, согласно которой модели должны быть гибкими (в любом случае ограниченными размером выборки), и что мы концентрируемся больше на «подгонке», чем «неадекватности».
источник
Из Википедии :
Его значение: после построения модели, оценивающей вашу модель y, вы хотите перепроверить, распределяется ли она по 10 децилям, аналогично фактической частоте событий.
Так что гипотезы будут
Следовательно, если p- значение меньше 0,05, они распределяются не очень хорошо, и вам необходимо уточнить вашу модель.
Я надеюсь, что это отвечает на некоторые ваши вопросы.
источник
Это довольно спорный вопрос следующие @ ответ FrankHarrell, но поклонник теста H-L будет вывести из этого результата , что , несмотря на ваше включение квадратичных членов и некоторые † взаимодействий второго порядка, модель все еще показала значительный недостаток приступа, и что , возможно , подойдет еще более сложная модель. Вы проверяете соответствие именно той модели, которую вы указали, а не более простой модели 1-го порядка.
† Это не полная модель 2-го порядка - есть три взаимодействия.
источник