Чтобы лучше задать мой вопрос, я предоставил некоторые из выводов как из 16 переменных моделей ( fit
), так и из 17 переменных моделей ( fit2
) ниже (все предикторные переменные в этих моделях являются непрерывными, где единственное различие между этими моделями состоит в том, fit
что содержит переменную 17 (var17)):
fit Model Likelihood Discrimination Rank Discrim.
Ratio Test Indexes Indexes
Obs 102849 LR chi2 13602.84 R2 0.173 C 0.703
0 69833 d.f. 17 g 1.150 Dxy 0.407
1 33016 Pr(> chi2) <0.0001 gr 3.160 gamma 0.416
max |deriv| 3e-05 gp 0.180 tau-a 0.177
Brier 0.190
fit2 Model Likelihood Discrimination Rank Discrim.
Ratio Test Indexes Indexes
Obs 102849 LR chi2 13639.70 R2 0.174 C 0.703
0 69833 d.f. 18 g 1.154 Dxy 0.407
1 33016 Pr(> chi2) <0.0001 gr 3.170 gamma 0.412
max |deriv| 3e-05 gp 0.180 tau-a 0.177
Brier 0.190
Я использовал rms
пакет Фрэнка Харрелла для создания этих lrm
моделей. Как вы можете видеть, эти модели, по-видимому, не сильно отличаются друг от друга в зависимости от индексов дискриминации и ранга дискриминации. Индексы ; Однако, используя lrtest(fit,fit2)
, мне были предоставлены следующие результаты:
L.R. Chisq d.f. P
3.685374e+01 1.000000e+00 1.273315e-09
Таким образом, мы отвергли бы нулевую гипотезу этого теста отношения правдоподобия; однако я предполагаю, что это, вероятно, связано с большим размером выборки ( n = 102849), поскольку эти модели работают аналогичным образом. Кроме того, мне интересно найти лучший способ формального сравнения вложенных бинарных моделей логистической регрессии, когда n велико.
Я очень ценю любые отзывы, R-сценарии или документацию, которые могут направить меня в правильном направлении с точки зрения сравнения этих типов вложенных моделей! Спасибо!
источник
fit2
это модель с 17 переменными, но это также модель, которая опускаетсяV17
. Вы можете редактировать это.fit2
наfit
в приведенном выше примере в соответствии с вашей коррекцией. Спасибо!Ответы:
(1) Существует обширная литература о том, почему следует предпочитать полные модели ограниченным / экономным моделям. В моем понимании есть несколько причин, чтобы предпочесть экономную модель. Тем не менее, большие модели могут быть неосуществимы для многих клинических применений.
(2) Насколько мне известно, индексы дискриминации / дискриминации не используются (? Не должны) в качестве параметра выбора модели / переменной. Они не предназначены для этого использования, и, как следствие, может быть мало литературы о том, почему их не следует использовать для построения моделей.
(3) Экономные модели могут иметь ограничения, которые не всегда очевидны. Они могут быть менее хорошо откалиброваны, чем более крупные модели, внешняя / внутренняя валидность может быть уменьшена.
(4) Статистика c может быть неоптимальной при оценке моделей, которые предсказывают будущий риск или делят людей на категории риска. В этом случае калибровка так же важна для точной оценки риска. Например, биомаркер с коэффициентом шансов 3 может незначительно влиять на cstatistic, но повышенный уровень может сместить предполагаемый 10-летний сердечно-сосудистый риск для отдельного пациента с 8% до 24%.
Повар NR; Использование и неправильное использование кривой ROC в медицинской литературе. Циркуляционный. 115 2007: 928-935.
(5) AUC / c-статистика / дискриминация, как известно, нечувствительны к значимым предикторам. Это обсуждается в приведенной выше ссылке Кука и является движущей силой разработки индекса чистой реклассификации. Также обсуждается в Cook выше.
(6) Большие наборы данных могут по-прежнему приводить к более крупным моделям, чем требуется, если используются стандартные методы выбора переменных. В пошаговых процедурах выбора часто используется отсечение р-значения 0,05. Но в этом значении нет ничего внутреннего, что означает, что вы должны выбрать это значение. При меньших наборах данных более подходящее значение p (0.2) может быть более подходящим, а при больших наборах данных может быть более подходящим меньшее значение p (по этой причине 0,01 использовалось для набора данных GUSTO I).
(7) В то время как AIC часто используется для выбора модели и лучше поддерживается литературой, BIC может быть допустимой альтернативой в больших наборах данных. Для выбора модели BIC хи-квадрат должен превышать log (n), поэтому это приведет к меньшим моделям в больших наборах данных. (Мэллов может иметь сходные характеристики)
(8) Но если вы просто хотите получить максимум 10 или 12 переменных, более простое решение - это что-то вроде пакета
bestglm
илиleaps
пакета, в котором вы просто задали максимальное количество переменных, которое хотите рассмотреть.(9) если вы просто хотите провести тест, в котором две модели будут выглядеть одинаково, и не будете слишком беспокоиться о деталях, вы, вероятно, можете сравнить AUC двух моделей. Некоторые пакеты даже дают p-значение для сравнения. Не кажется желательным.
Ambler G (2002) Упрощение прогностической модели: имитационное исследование, основанное на клинических данных
Cook NR; Использование и неправильное использование кривой ROC в медицинской литературе. Циркуляционный. 115 2007: 928-935.
Gail MH, Pfeiffer RM; О критериях оценки моделей абсолютного риска. Биостат. 6 2005: 227-239.
(10) После того, как модель построена, индексы c-статистики / децимации могут быть не лучшим подходом к сравнению моделей и имеют хорошо документированные ограничения. Сравнения должны также, как минимум, включать калибровку, индекс реклассификации.
Steyerber (2010) Оценка эффективности моделей прогнозирования: основа для некоторых традиционных и новых мер
(11) Это может быть хорошей идеей, чтобы выйти за рамки выше и использовать аналитические меры решения.
Виккерс А.Ю., Елкин Е.Б. Анализ кривой принятия решения: новый метод оценки моделей прогнозирования. Med Decis Making. 2006; 26: 565-74.
Бейкер С.Г., Повар Н.Р., Виккерс А., Крамер Б.С. Использование кривых относительной полезности для оценки прогнозирования риска. JR Stat Soc A. 2009; 172: 729-48.
Ван Калстер Б., Викерс А.Дж., Пенчина М.Дж., Бейкер С.Г., Тиммерман Д., Штейерберг Е.В. Оценка маркеров и моделей прогнозирования риска: обзор взаимосвязей между NRI и аналитическими мерами принятия решений. Med Decis Making. 2013; 33: 490-501
--- Обновление --- Я нахожу статью Vickers наиболее интересной. Но это все еще не было широко принято несмотря на многие передовые статьи. Так что может не иметь большого практического применения. Статьи Кука и Штейерберга гораздо более практичны.
Никто не любит пошаговый отбор. Я, конечно, не собираюсь защищать это. Я мог бы подчеркнуть, что большинство критических замечаний в отношении поэтапного подхода предполагает EPV <50 и выбор между полной или предварительно определенной моделью и сокращенной моделью. Если EPV> 50 и существует приверженность модели сокращения, анализ затрат и выгод может отличаться.
Слабая мысль, стоящая за сравнением c-статистики, заключается в том, что они могут не отличаться, и я, кажется, помню, что этот тест был значительно недостаточным. Но сейчас я не могу найти ссылку, так что, может быть, это далеко не так.
источник
bestglm
иleaps
пакеты очень дороги в вычислительном отношении и занимают дни, чтобы работать с наборами данных, такими как те, с которыми я работаю, но спасибо за потенциальные идеи.Одним из вариантов является использование мер псевдо R-квадрата для обеих моделей. Сильное различие в псевдо R-квадрате предполагает, что подгонка модели сильно уменьшается при пропуске V17.
Существуют различные виды псевдо R-квадратов. Обзор можно найти здесь, например:
http://www.ats.ucla.edu/stat/mult_pkg/faq/general/Psuedo_RSquareds.htm
Популярной мерой является Нагелкерке R-квадрат. Она варьируется от 0 до 1 и с осторожностью может быть интерпретирована как R-квадрат из простой модели линейной регрессии. Он основан на преобразованном соотношении оценочных правдоподобий полной модели к модели только для перехвата.
Вы можете оценить его для
fit
иfit2
, соответственно, и сравнить относительный размер, чтобы получить представление о вашей проблеме. Значительно более высокое значение R-квадрата для Нагелкеркеfit
позволяет предположить, чтоfit2
из-за отсутствия V17 теряется много предсказательной силы.В
lrm
наstats
значении обеспечивает R-квадрат Nagelkerke в. Таким образом, предоставлениеfit$stats
должно предоставить вам оценку. Смотрите также?lrm
.источник
fit
»? В приведенном выше примере разница составляет 0,001, поскольку R-квадрат Нагелкерке равен 0,173 и 0,174 дляfit
иfit2
, соответственно. Есть ли у вас какие-либо упоминания о том, что такое «существенно более высокая площадь Нагелькерке»? Спасибо!Я только что прочитал об этом. Правильный способ сделать это - использовать вывод finalmodel R glm и найти «Остаточное отклонение:» и получить дельту между двумя моделями и использовать это значение в тесте хи-квадрат, используя df, равное числу пропущенных терминов-предикторов. И это ваше значение р.
Прикладное регрессионное моделирование Яян Пардо 2-е издание 2012 г., стр. 270
источник