Существуют ли методы для исправления смещения в модели пропорционального риска Кокса, вызванного неслучайно выбранной выборкой (что-то вроде коррекции Хекмана)?
Справочная информация :
Допустим, ситуация выглядит следующим образом:
- В течение первых двух лет все клиенты принимаются.
- После этих двух лет модель Cox PH строится. Модель прогнозирует, как долго клиенты будут пользоваться нашим сервисом.
- В соответствии с политикой компании отныне принимаются только клиенты с вероятностью выживания более 3 месяцев более 0,5, остальные отклоняются.
- Еще через два года новая модель должна быть построена. Проблема в том, что у нас есть цель только для принятых клиентов, и использование только этих клиентов может вызвать серьезную предвзятость.
Ответы:
Предложены решения для параметрических моделей риска. Взгляните на это:
Пригер, Джеймс, 2000. «Обобщенная параметрическая модель отбора для ненормальных данных», Рабочие материалы 00-9, Университет Калифорнии в Дэвисе, Департамент экономики.
Бёмке, Фредерик Дж., Даниэль Мори и Меган Шеннон. 2006. «Модели смещения выбора и модели продолжительности непрерывного времени: последствия и предлагаемое решение». Американский журнал политических наук 50 (1): 192-207.
Есть код для более поздней статьи в Stata, пакет "dursel"
Тем не менее, я не знаю решения для полупараметрической модели Кокса.
источник
Простой ответ - взвешивание. То есть вы можете использовать весовые коэффициенты для стандартизации групп в «принятой» группе по интересующему населению. Проблема, которая возникает из-за использования таких весов в объединенном анализе с использованием как первого, так и второго двухлетних этапов, заключается в том, что оценочные веса населения и параметры теперь зависят. Обычно используется подход псевдослучайности (в данном случае это будет своего рода псевдо-частичная вероятность), когда вы игнорируете зависимость между весами выборки и оценками параметров. Однако во многих практических обстоятельствах (и это ничем не отличается) учет этой зависимости необходим. Вопрос создания эффективной оценки коэффициентов опасности является сложным, и, насколько я знаю, открытым.
Усовершенствованная оценка Хорвица-Томпсона параметров модели двухфазных стратифицированных образцов: приложения в эпидемиологии .
В статье рассматриваются методы опроса, обычно применяемые в логистической регрессии, однако вы также можете взвесить данные о выживаемости. Некоторые важные соображения, о которых вы забыли упомянуть, касаются того, заинтересованы ли вы в создании прогноза, который применим ко всему населению, или к «подходящей» совокупности на основе двухлетних оценок, или к «соответствующей» совокупности на основе результирующей модель. Вы также не упомянули, как именно такая модель «прогнозирования» создается из модели Кокса, так как подгонянные значения из модели Кокса нельзя интерпретировать как риски. Я предполагаю, что вы оцениваете коэффициенты опасности, а затем получаете сглаженную оценку базовой функции риска.
источник