Основные вопросы об анализе выживания в дискретном времени

Я пытаюсь провести анализ выживания с дискретным временем, используя модель логистической регрессии, и я не уверен, что полностью понимаю процесс. Я был бы очень признателен за помощь с несколькими основными вопросами.

Вот установка:

Я смотрю на членство в группе в течение пятилетнего периода времени. Каждый участник имеет ежемесячную запись членства за каждый месяц, когда этот участник входит в группу. Я рассматриваю всех членов, чье членство началось в течение пятилетнего периода (чтобы избежать проблем «левой цензуры» с участниками, которые присоединились ранее). Каждая запись будет проиндексирована по времени, причем время один - это месяц, к которому присоединился участник. Таким образом, член, который остается в течение двух с половиной лет, будет иметь тридцать ежемесячных записей, пронумерованных от одного до тридцати. Каждой записи также будет присвоена двоичная переменная, которая будет иметь значение 1 за последний месяц членства и ноль в противном случае; значение 1 для двоичной переменной отмечает событие, когда участник покинул группу. Для каждого члена, членство которого продолжается за пятилетним периодом анализа,

Таким образом, модель логистической регрессии построена для прогнозирования значений двоичной переменной события. Все идет нормально. Одним из типичных способов оценки бинарной прогностической модели является измерение подъемной силы на выборке удержания. Для модели логистической регрессии, которую я построил, чтобы предсказать событие окончания членства, я вычислил подъем для набора данных удержания с отношением не-событий к событиям пять к одному. Я оценил прогнозируемые значения в децилях. Дециль с самыми высокими прогнозируемыми значениями содержит семьдесят процентов, что составляет более четырех. Первые два дециля вместе взятые содержат шестьдесят пять процентов от всех в несогласном. В определенных контекстах это будет считаться довольно приличной прогностической моделью, но мне интересно, достаточно ли она хороша для проведения анализа выживания.

Пусть будет функцией риска для человека в месяце , и пусть будет вероятностью того, что человек выживет через месяц . $h[j,k]$ $j$ $k$ $S[j,k]$ $j$ $k$

Вот мои фундаментальные вопросы:

Является ли функция дискретного риска условной вероятностью не выживания (ухода из группы) в каждом месяце? $h[j,k]$
Являются ли предсказанные значения из оценок логистической регрессионной модели функции опасности? (т. е. равен ли прогнозному значению модели для отдельного в месяце , или необходимо сделать что-то еще для получения оценок функции опасности?) $h[j,k]$ $j$ $k$
Является ли вероятность выживания до месяца q для индивидуума равной произведению одного минус функция риска от месяца один до , то есть ? $j$ $q$ $S[j,q] = (1 - h[j,1]) \cdot (1 - h[j,2]) \cdot \ldots \cdot (1 - h[j,q])$
Является ли среднее значение всех индивидуумов для каждого момента времени разумной оценкой средней вероятности выживания населения? $S[j,k]$ $j$ $k$
Должен ли график общей совокупной вероятности выживания по месяцам напоминать месячный график Каплана-Мейера?

Если ответ на любой из этих вопросов - «нет», то у меня есть серьезное недоразумение, и я мог бы действительно использовать некоторую помощь / объяснение. Кроме того, есть ли эмпирическое правило о том, насколько хорошей должна быть бинарная прогностическая модель для получения точного профиля выживания?

survival discrete-data hazard kaplan-meier Talbot Katz
источник

Может быть, это может помочь вам с некоторыми из ваших вопросов

jujae

Ответы:

Предположим, что $K$ является наибольшим значением $k$ (то есть наибольшим месяцем / периодом, наблюдаемым в ваших данных).

Вот функция опасности с полностью дискретной параметризацией времени и с вектором параметров $\mathbf{B}$ вектором переменных кондиционирования $\mathbf{X}$ : $h_{j,k} = \frac{e^{\alpha_{k} + \mathbf{BX}}}{1 + e^{\alpha_{k} + \mathbf{BX}}}$ . Функция опасности также может быть построена на альтернативных параметризациях времени (например, включение $k$ или его функций в качестве переменной в модели) или на основе их сочетания.

Базовая функция логита опасности описывает вероятность наступления события в время $k$ , условную при пережив до времени $k$ . Добавление предикторов ( $\mathbf{X}$ ) к модели дополнительно ограничивает эту обусловленность.
Нет, оценки логистической регрессии $\hat{\alpha}_{1}$ , $\dots$ , , ) являются не функции опасности сами. Модели логистической регрессии: logit $\hat{\alpha}_{K}$ $\mathbf{\hat{B}}$ $(h_{j,k}) = \alpha_{k} + \mathbf{BX}$ , и вам необходимо выполнить анти-логит-преобразование в (1) выше, чтобы получить оценки опасности.
Да. Хотя я бы фиксировать его . Функция выживания вероятность не испытывает события по времени , и, конечно , также может быть обусловлена . $\hat{S}_{j,q} = \prod_{i=1}^{q}{(1-h_{j,i})}$ $k$ $\mathbf{X}$
Это тонкий вопрос, не уверен, что у меня есть ответы. У меня есть вопросы, хотя. :) Размер выборки в каждый период времени уменьшается с течением времени из-за правильной цензуры и из-за наступления события: учли ли вы это при расчете среднего времени выживания? Как? Что вы подразумеваете под "населением"? К какой группе лиц относятся люди, привлеченные к вашему исследованию? Или вы имеете в виду статистическую концепцию «сверхпопуляции»? Умозаключение является большой проблемой в этих моделях, потому что мы оцениваем $\beta$ s и их стандартные ошибки, но нужно делать дельта-метод обратно-щелкает , чтобы получить стандартные ошибки для $\hat{h}_{j,k}$ и (от моей собственной работы) получения правильного стандарта ошибки для $\hat{S}_{j,k}$ работает только на бумаге (я не могу получить правильные охваты CI для в условных моделях). $\hat{S}_{j,k}$
Вы можете использовать графы ступенчатых функций, подобные Каплану-Мейеру, а также прямые линейные графики (т. Е. Соединять точки между периодами времени линией). Вы должны использовать последний случай только тогда, когда само понятие «дискретное время» допускает возможность подразделенных периодов. Вы также можете построить / передать оценки кумулятивной заболеваемости (которая составляет $1 - S_{j,k}$ ... по крайней мере, эпидемиологи будут часто определять «кумулятивную заболеваемость» таким образом, термин используется по-разному в моделях конкурирующих рисков. Термин « поглощение» может также использоваться здесь.).

Alexis
источник

Я думаю, что в вопросе 2 OP задает вопрос о прогнозируемом значении из логистической модели, а не об оценках коэффициентов регрессии. Это может быть актуально

jujae

\hat{h} (t)

$\hat{h}(t)$

y_{p r e d} = \exp (β^{T} x) / (1 + \exp (β^{T} x))

$y_\mathrm{pred}= \exp(\beta^Tx)/(1+\exp(\beta^Tx))$

Возвращаясь к первоначальному вопросу 2, ФП задал вопрос: «Являются ли предсказанные значения из оценок модели логистической регрессии функции опасности?» Я бы сказал, да (если мое понимание прогнозируемой стоимости является правильным). А вы говорите «нет» и приводите аргумент, что оценочные коэффициенты не совпадают с оценкой опасности. Я согласен с вашим утверждением, они верны, но это не то, что ОП спросил из моего понимания.

Jujae

k

$k$

{\hat{S}}_{j} (k)

$\hat{S}_j(k)$ действительно разумная оценка для

S (k)

$S(k)$ , В своем ответе вы сначала имеете в виду среднее время выживания, которое сбивает меня с толку как читателя. Между тем, я также считаю, что оценщик, который мы обсуждаем, по сути является Каплан-Мейером, и (например) оценщик дисперсии Гринвуда для КМ может быть использован напрямую, и я не могу оценить трудности, которые вы указали выше в отношении расчета отклонений.

Jujae