Я выполнил многомерную логистическую регрессию с зависимой переменной, Y
являющейся смертью в доме престарелых в течение определенного периода времени, и получил следующие результаты (обратите внимание, что переменные, начинающиеся в A
нем, являются непрерывным значением, а те, которые начинаются в, B
являются категоричными):
Call:
glm(Y ~ A1 + B2 + B3 + B4 + B5 + A6 + A7 + A8 + A9, data=mydata, family=binomial)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.0728 -0.2167 -0.1588 -0.1193 3.7788
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 20.048631 6.036637 3.321 0.000896 ***
A1 0.051167 0.016942 3.020 0.002527 **
B2 -0.664940 0.304299 -2.185 0.028878 *
B3 -2.825281 0.633072 -4.463 8.09e-06 ***
B4 -2.547931 0.957784 -2.660 0.007809 **
B5 -2.862460 1.385118 -2.067 0.038774 *
A6 -0.129808 0.041286 -3.144 0.001666 **
A7 0.020016 0.009456 2.117 0.034276 *
A8 -0.707924 0.253396 -2.794 0.005210 **
A9 0.003453 0.001549 2.229 0.025837 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 485.10 on 2206 degrees of freedom
Residual deviance: 417.28 on 2197 degrees of freedom
AIC: 437.28
Number of Fisher Scoring iterations: 7
(Intercept) A1 B2 B3 B4 B5 A6 A7 A8 A9
5.093426e+08 1.052499e+00 5.143045e-01 5.929197e-02 7.824340e-02 5.712806e-02 8.782641e-01 1.020218e+00 4.926657e-01 1.003459e+00
2.5 % 97.5 %
(Intercept) 3.703525e+03 7.004944e+13
A1 1.018123e+00 1.088035e+00
B2 2.832698e-01 9.337710e-01
B3 1.714448e-02 2.050537e-01
B4 1.197238e-02 5.113460e-01
B5 3.782990e-03 8.627079e-01
A6 8.099945e-01 9.522876e-01
A7 1.001484e+00 1.039302e+00
A8 2.998207e-01 8.095488e-01
A9 1.000416e+00 1.006510e+00
Как видите, все переменные являются «значимыми» в том смысле, что их значения p ниже обычного порога 0,05. Однако, смотря на коэффициенты, я не совсем уверен, что делать с этими результатами. Кажется, что, хотя эти переменные вносят вклад в модель, глядя на отношения шансов, кажется, что они не обладают большой предсказательной силой. Следует отметить, что когда я рассчитал AUC, я получил примерно 0,8.
Могу ли я сказать, что эта модель лучше прогнозирует смертность (например, прогнозирует, что пожилые люди доживут до установленного срока) по сравнению с прогнозированием смертности?
источник
Ответы:
Я бы посоветовал вам воспользоваться отличным пакетом Фрэнка Харрелла . Он содержит много полезных функций для проверки и калибровки вашей модели. Насколько я знаю, вы не можете оценить прогнозную эффективность исключительно на основе коэффициентов. Кроме того, я бы предложил вам использовать начальную загрузку для проверки модели. AUC или индекс соответствия (c-индекс) является полезным показателем прогнозирующей эффективности. С-индекс довольно высок, но, как и во многих прогностических моделях, подгонка вашей модели, вероятно, чрезмерно оптимистична (переоснащение). Этот избыточный оптимизм можно оценить с помощью начальной загрузки. Но позвольте мне привести пример:0.8
Внизу вы видите обычные коэффициенты регрессии с соответствующими . Справа вверху вы видите несколько индексов дискриминации. Обозначает с-индекс (AUC) и С-индекс обозначает случайное расщепление в то время как с-индекс обозначает идеальное прогнозирования. является рангом корреляции Сомерса между предсказанными вероятностями и наблюдаемыми ответами. имеет простую связь с c-индексом: . из происходит , когда предсказание модели является случайным и когда , то модель прекрасно различения. В этом случае с-индексp 0.5 1 Dxy Dxy Dxy=2(c−0.5) Dxy 0 Dxy=1 0.693 что немного лучше, чем шанс, но с-индекс достаточно хорош для прогнозирования результатов отдельных лиц.>0.8
C
Dxy
Как сказано выше, модель, вероятно, является чрезмерно оптимистичной. Теперь мы используем bootstrap для количественной оценки оптимизма:
Давайте сосредоточимся на который находится сверху. Первый столбец обозначает исходный индекс, который был . Столбец под названием обозначает количество оценочной завышенной модели. Столбец является исходной оценкой минус оптимизм. В этом случае поправкой на смещение немного меньше оригинала. C-индекс с поправкой на смещение (AUC) равен .Dxy 0.3857 Dxy c=1+Dxy2=0.6749
optimism
index.corrected
Мы также можем рассчитать калибровочную кривую, используя повторную выборку:
График дает некоторые доказательства того, что наши модели переоснащаются: модель недооценивает низкие вероятности и переоценивает высокие вероятности. Существует также систематическая переоценка около .0.3
Интеллектуальное построение модели - большая тема, и я предлагаю прочитать заметки о курсе Фрэнка Харрелла .
источник
rms
пакета @COOLSerdash и Ника.Примечание по интерпретации коэффициентов: помните, они зависят от того, как предикторы записаны в виде чисел. Таким образом, для непрерывных переменных они зависят от единиц измерения, в которых они измеряются; для категориальных предикторов - схема кодирования. Не поддавайтесь искушению думать, что, скажем, A9 является «неважным» только потому, что его коэффициент, равный 0,003453, мал - A9 может колебаться в пределах нескольких порядков в некоторой популяции, представляющей интерес, в то время как другие предикторы изменяются незначительно, или это может быть легко установить очень высокие или низкие значения, в то время как другие трудно сильно изменить.
источник