Точно, как R coxph () обрабатывает повторные измерения?

10

контекст

Я пытаюсь понять, как R coxph () принимает и обрабатывает повторяющиеся записи для субъектов (или пациента / клиента, если вы предпочитаете). Некоторые называют это длинным форматом, другие называют это «повторными измерениями».

Посмотрите, например, набор данных, который включает столбец идентификатора в разделе Ответы по адресу:

Лучшие пакеты для моделей Кокса с изменяющимися во времени ковариатами

Также предположим, что ковариаты меняются во времени, и существует ровно одна переменная цензора (то есть события), которая является двоичной.

Вопросов

1) В ответе вышеупомянутой ссылки, если ID не указан в качестве параметра при вызове coxph (), должны ли результаты быть такими же, как включение кластера (ID) в качестве параметра в coxph ()?

Я попытался найти документацию, но следующее, похоже, не совсем понятно (1): https://stat.ethz.ch/pipermail/r-help//2013-July/357466.html

2) Если ответ на (1) «нет», то (математически) почему? Кажется, cluster () в coxph () ищет корреляции между субъектами в соответствии с подразделом 'cluster' на pg. 20 в

https://cran.r-project.org/web/packages/survival/survival.pdf

3) Неясный вопрос: как coxph () с повторными измерениями сравнивается с регрессионными методами R-хрупкого пакета?

Addenda

Следующие советы по использованию кластера (ID):

Есть ли повторная мера в курсе версии теста logrank?

как делает:

https://stat.ethz.ch/pipermail/r-help//2013-July/357466.html

Подход GEE: добавьте «+ cluster (subject)» к утверждению модели в coxph. Подход смешанных моделей: добавьте «+ (1 | subject)» к стату модели в coxme.

Заранее спасибо!

Кецалькоатль
источник

Ответы:

11
  1. В том числе cluster(ID)не меняются точечные оценки параметров. Однако это меняет способ вычисления стандартных ошибок.

    Более подробную информацию можно найти в книге Терно и Грамбша « Расширение модели Кокса» , глава 8.2. Обратите внимание, что в их примере они используют в method = "breslow"качестве поправки для связей, но также и по умолчанию ( method = "efron") будет использоваться аналогичный расчет для значений se, и в сводке он появится как «надежный набор se».

  2. Если используется кластер (ID), применяется «надежная» оценка стандартных ошибок и измеряется возможная зависимость между субъектами (например, по стандартным ошибкам и оценкам дисперсии). С другой стороны, отказ от использования кластера (ID) налагает независимость на каждое наблюдение, и в данных предполагается больше «информации». В более технических терминах функция оценки для параметров не изменяется, но изменяется эта оценка. Более интуитивным аргументом является то, что 100 наблюдений на 100 человек дают больше информации, чем 100 наблюдений на 10 человек (или кластеров).

  3. Действительно расплывчато Короче говоря, +frailty(ID)в coxph()припадках стандартных моделей хрупкости с гамма- или логнормальными случайными эффектами и непараметрическим базовый риск / интенсивностью. frailtypackиспользует параметрическую базовую линию (также гибкие версии со сплайнами или кусочно-постоянными функциями), а также подходит для более сложных моделей, таких как коррелированная слабость, вложенная слабость и т. д.

Наконец, +cluster()это в некоторой степени соответствует духу GEE, так как вы берете уравнения для оценки из вероятности с независимыми наблюдениями и используете другую «надежную» оценку для стандартных ошибок.

редактирование: Спасибо @Ivan за предложения относительно ясности поста.

Theodor
источник
Спасибо. Относительно (2): можно ли «Это потому, что если вы (ошибочно) предполагаете ...» заменить на «Если вы не используете cluster (ID) при вызове coxph (), то вы ошибочно предполагаете…»
Кецалькоатль
Я имел в виду: если наблюдения сгруппированы, то они могут быть или не быть независимыми. Предполагать, что они независимы (то есть не используют кластер (id)), почти наверняка неправильно в этом случае, но нет никакой идеи знать это заранее
Теодор
(2) можно перефразировать следующим образом: если используется кластер (ID), вводится «надежная» оценка стандартных ошибок и измеряется возможная зависимость между субъектами (например, по стандартным ошибкам и оценкам дисперсии). С другой стороны, отказ от использования кластера (ID) налагает независимость на каждое наблюдение, и в данных предполагается больше «информации».
Кецалькоатль
Ссылка, которую вы указали в (1), должна быть: springer.com/us/book/9780387987842 (при условии, что вы цитируете книгу Терно и Грамбша)
Кецалькоатль
Также обратите внимание: как объяснено в книге Терно и Грамбша, причина, по которой ответ в (1) выше верен, состоит в том, что coxph () использует метод Бреслоу в качестве значения по умолчанию для связей.
Кецалькоатль
1

Вот ответ от survivalвиньетки пакета, который я нашел полезным - он связан в первом ответе на первый вопрос, с которым вы связались:

Лучшие пакеты для моделей Кокса с изменяющимися во времени ковариатами

Они ссылаются на подробные настройки данных или данные с повторяющимися записями для субъектов.

Один общий вопрос с этой настройкой данных заключается в том, нужно ли нам беспокоиться о коррелированных данных, поскольку у данного субъекта есть несколько наблюдений. Ответ - нет, у нас нет. Причина в том, что это представление - просто программный трюк. В уравнениях правдоподобия в любой момент времени используется только одна копия любого предмета, программа каждый раз выбирает правильный ряд данных. Есть два исключения из этого правила:

  • Когда у субъекта есть несколько событий, то строки для событий коррелируются внутри субъекта, и требуется кластерная дисперсия.
  • Когда объект появляется в перекрывающихся интервалах. Это, однако, почти всегда ошибка данных, поскольку она соответствует двум копиям субъекта, присутствующим в одних и тех же слоях одновременно, например, она могла встретиться на вечеринке.

Пример, который они дают

fit <- coxph(Surv(time1, time2, status) ~ age + creatinine, data=mydata)

предполагая, что если вы предоставите два раза (начало и конец периода) Survвместо одного, coxph()выясните все остальное.

BLT
источник
Если я что-то не так понял, думаю, этот комментарий вводит в заблуждение? Нам нужно беспокоиться о коррелированных данных, если мы хотим получить точные оценки дисперсии, поэтому, почему добавление члена + cluster (ID) меняет предполагаемые условия дисперсии?
AP30