Я пытаюсь провести анализ выживания с дискретным временем, используя модель логистической регрессии, и я не уверен, что полностью понимаю процесс. Я был бы очень признателен за помощь с несколькими основными вопросами.
Вот установка:
Я смотрю на членство в группе в течение пятилетнего периода времени. Каждый участник имеет ежемесячную запись членства за каждый месяц, когда этот участник входит в группу. Я рассматриваю всех членов, чье членство началось в течение пятилетнего периода (чтобы избежать проблем «левой цензуры» с участниками, которые присоединились ранее). Каждая запись будет проиндексирована по времени, причем время один - это месяц, к которому присоединился участник. Таким образом, член, который остается в течение двух с половиной лет, будет иметь тридцать ежемесячных записей, пронумерованных от одного до тридцати. Каждой записи также будет присвоена двоичная переменная, которая будет иметь значение 1 за последний месяц членства и ноль в противном случае; значение 1 для двоичной переменной отмечает событие, когда участник покинул группу. Для каждого члена, членство которого продолжается за пятилетним периодом анализа,
Таким образом, модель логистической регрессии построена для прогнозирования значений двоичной переменной события. Все идет нормально. Одним из типичных способов оценки бинарной прогностической модели является измерение подъемной силы на выборке удержания. Для модели логистической регрессии, которую я построил, чтобы предсказать событие окончания членства, я вычислил подъем для набора данных удержания с отношением не-событий к событиям пять к одному. Я оценил прогнозируемые значения в децилях. Дециль с самыми высокими прогнозируемыми значениями содержит семьдесят процентов, что составляет более четырех. Первые два дециля вместе взятые содержат шестьдесят пять процентов от всех в несогласном. В определенных контекстах это будет считаться довольно приличной прогностической моделью, но мне интересно, достаточно ли она хороша для проведения анализа выживания.
Пусть будет функцией риска для человека j в месяце k , и пусть S [ j , k ] будет вероятностью того, что человек j выживет через месяц k .
Вот мои фундаментальные вопросы:
Является ли функция дискретного риска условной вероятностью не выживания (ухода из группы) в каждом месяце?
Являются ли предсказанные значения из оценок логистической регрессионной модели функции опасности? (т. е. равен ли прогнозному значению модели для отдельного j в месяце k , или необходимо сделать что-то еще для получения оценок функции опасности?)
Является ли вероятность выживания до месяца q для индивидуума равной произведению одного минус функция риска от месяца один до q , то есть S [ j , q ] = ( 1 - h [ j , 1 ] ) ⋅ ( 1 - h [ j , 2 ] ) ⋅ … ⋅ ( 1 - h [ j , q ] ) ?
Является ли среднее значение всех индивидуумов j для каждого момента времени k разумной оценкой средней вероятности выживания населения?
Должен ли график общей совокупной вероятности выживания по месяцам напоминать месячный график Каплана-Мейера?
Если ответ на любой из этих вопросов - «нет», то у меня есть серьезное недоразумение, и я мог бы действительно использовать некоторую помощь / объяснение. Кроме того, есть ли эмпирическое правило о том, насколько хорошей должна быть бинарная прогностическая модель для получения точного профиля выживания?
источник
Ответы:
Предположим, чтоK является наибольшим значением k (то есть наибольшим месяцем / периодом, наблюдаемым в ваших данных).
Вот функция опасности с полностью дискретной параметризацией времени и с вектором параметровB вектором переменных кондиционирования X : hj,k=eαk+BX1+eαk+BX . Функция опасности также может быть построена на альтернативных параметризациях времени (например, включениеk или его функций в качестве переменной в модели) или на основе их сочетания.
Базовая функция логита опасности описывает вероятность наступления события в времяk , условную при пережив до времени k . Добавление предикторов ( X ) к модели дополнительно ограничивает эту обусловленность.
Нет, оценки логистической регрессииα^1 , … , α K , B ) являются не функции опасности сами. Модели логистической регрессии: logit (α^K B^ (hj,k)=αk+BX , и вам необходимо выполнить анти-логит-преобразование в (1) выше, чтобы получить оценки опасности.
Да. Хотя я бы фиксировать его S J , Q = Π д я = 1 ( 1 - ч J , я ) . Функция выживания вероятность не испытывает события по времени к , и, конечно , также может быть обусловлена X .S^j,q=∏qi=1(1−hj,i) k X
Это тонкий вопрос, не уверен, что у меня есть ответы. У меня есть вопросы, хотя. :) Размер выборки в каждый период времени уменьшается с течением времени из-за правильной цензуры и из-за наступления события: учли ли вы это при расчете среднего времени выживания? Как? Что вы подразумеваете под "населением"? К какой группе лиц относятся люди, привлеченные к вашему исследованию? Или вы имеете в виду статистическую концепцию «сверхпопуляции»? Умозаключение является большой проблемой в этих моделях, потому что мы оцениваемβ s и их стандартные ошибки, но нужно делать дельта-метод обратно-щелкает , чтобы получить стандартные ошибки для чh^j,k и (от моей собственной работы) получения правильного стандарта ошибки для S JS^j,k работает только на бумаге (я не могу получить правильные охваты CI для S J , K в условных моделях).S^j,k
Вы можете использовать графы ступенчатых функций, подобные Каплану-Мейеру, а также прямые линейные графики (т. Е. Соединять точки между периодами времени линией). Вы должны использовать последний случай только тогда, когда само понятие «дискретное время» допускает возможность подразделенных периодов. Вы также можете построить / передать оценки кумулятивной заболеваемости (которая составляет1−Sj,k ... по крайней мере, эпидемиологи будут часто определять «кумулятивную заболеваемость» таким образом, термин используется по-разному в моделях конкурирующих рисков. Термин « поглощение» может также использоваться здесь.).
источник