Модель пропорционального риска Кокса и не случайно выбранная выборка

9

Существуют ли методы для исправления смещения в модели пропорционального риска Кокса, вызванного неслучайно выбранной выборкой (что-то вроде коррекции Хекмана)?

Справочная информация :
Допустим, ситуация выглядит следующим образом:
- В течение первых двух лет все клиенты принимаются.
- После этих двух лет модель Cox PH строится. Модель прогнозирует, как долго клиенты будут пользоваться нашим сервисом.
- В соответствии с политикой компании отныне принимаются только клиенты с вероятностью выживания более 3 месяцев более 0,5, остальные отклоняются.
- Еще через два года новая модель должна быть построена. Проблема в том, что у нас есть цель только для принятых клиентов, и использование только этих клиентов может вызвать серьезную предвзятость.

Томек Тарчинский
источник
1
В чем смысл этого анализа? Модель Кокса PH не может явно предсказать время до отказа, если вы не используете некоторые методы сглаживания или параметрического моделирования. Какие стратификационные / корректировочные переменные в этой модели?
AdamO

Ответы:

4

Предложены решения для параметрических моделей риска. Взгляните на это:

Пригер, Джеймс, 2000. «Обобщенная параметрическая модель отбора для ненормальных данных», Рабочие материалы 00-9, Университет Калифорнии в Дэвисе, Департамент экономики.

Бёмке, Фредерик Дж., Даниэль Мори и Меган Шеннон. 2006. «Модели смещения выбора и модели продолжительности непрерывного времени: последствия и предлагаемое решение». Американский журнал политических наук 50 (1): 192-207.

Есть код для более поздней статьи в Stata, пакет "dursel"

Тем не менее, я не знаю решения для полупараметрической модели Кокса.

jorpppp
источник
Проблема с расчетом параметрических подходов с полупараметрической моделью Кокса состоит в том, что эта конкретная проблема на самом деле связана с отсутствующими данными. Несмотря на то, что автор не описал, как он получает прогнозы абсолютного риска из модели Кокса, учитывая, что у нас есть такой прогноз риска, основанный на параметрах модели (и оценках базовой функции риска), вероятность включения во второй фазе данных сбор зависит от первоначального прогноза риска, поэтому отсутствие данных зависит от наблюдаемых переменных, т. е. отсутствует случайных данных.
AdamO
2

Простой ответ - взвешивание. То есть вы можете использовать весовые коэффициенты для стандартизации групп в «принятой» группе по интересующему населению. Проблема, которая возникает из-за использования таких весов в объединенном анализе с использованием как первого, так и второго двухлетних этапов, заключается в том, что оценочные веса населения и параметры теперь зависят. Обычно используется подход псевдослучайности (в данном случае это будет своего рода псевдо-частичная вероятность), когда вы игнорируете зависимость между весами выборки и оценками параметров. Однако во многих практических обстоятельствах (и это ничем не отличается) учет этой зависимости необходим. Вопрос создания эффективной оценки коэффициентов опасности является сложным, и, насколько я знаю, открытым.

Усовершенствованная оценка Хорвица-Томпсона параметров модели двухфазных стратифицированных образцов: приложения в эпидемиологии .

В статье рассматриваются методы опроса, обычно применяемые в логистической регрессии, однако вы также можете взвесить данные о выживаемости. Некоторые важные соображения, о которых вы забыли упомянуть, касаются того, заинтересованы ли вы в создании прогноза, который применим ко всему населению, или к «подходящей» совокупности на основе двухлетних оценок, или к «соответствующей» совокупности на основе результирующей модель. Вы также не упомянули, как именно такая модель «прогнозирования» создается из модели Кокса, так как подгонянные значения из модели Кокса нельзя интерпретировать как риски. Я предполагаю, что вы оцениваете коэффициенты опасности, а затем получаете сглаженную оценку базовой функции риска.

Adamo
источник