Модель случайных эффектов, обрабатывающая избыточность

9

Я пытаюсь иметь дело с анализом времени на событие, используя повторяющиеся двоичные результаты. Предположим, что время до события измеряется днями, но на данный момент мы делим время на недели. Я хочу приблизить оценку Каплана-Мейера (но учесть ковариаты), используя повторяющиеся двоичные результаты. Это может показаться окольным путем, но я исследую, как это распространяется на порядковые результаты и повторяющиеся события.

Если вы создаете двоичную последовательность, которая выглядит как 000 для кого-то, кто подвергся цензуре в 3 недели, 0000 для кого-то, кто подвергся цензуре в 4w, и 0000111111111111 .... для субъекта, который потерпел неудачу в 5w (1-е простираются до точки, в которой последний субъект был далее в исследовании), когда вы вычисляете относительные для недели пропорции 1 с, вы можете получить обычные кумулятивные инциденты (пока не дойдете до переменного времени цензуры, где это только приблизительно, но не равно кумулятивным оценкам Каплана-Мейера).

Я могу сопоставить повторяющиеся бинарные наблюдения с бинарной логистической моделью, используя GEE, вместо того, чтобы делать время дискретным, как указано выше, но вместо этого использовать сплайн во времени. Оценщик ковариации сэндвич-кластера работает достаточно хорошо. Но я бы хотел получить более точный вывод, используя модель смешанных эффектов. Проблема в том, что цифры 1 после первой 1 являются избыточными. Кто-нибудь знает способ указать случайные эффекты или указать модель, которая учитывает избыточность, чтобы стандартные ошибки не были дефлятированы?

Обратите внимание, что эта установка отличается от установки Эфрона, потому что он использовал логистические модели для оценки условных вероятностей в наборах рисков. Я оцениваю безусловные вероятности.

Фрэнк Харрелл
источник

Ответы:

3

Насколько я могу видеть как с GEE, так и со смешанной моделью для повторных бинарных наблюдений, у вас будет проблема, что модель будет назначать положительную вероятность для «0» после того, как первая «1» была обнаружена.

В любом случае, учитывая, что вы хотите получить оценки из логистической регрессии со смешанными эффектами, которая будет иметь ту же интерпретацию, что и в GEE (см. Здесь для получения дополнительной информации), вы можете подогнать модель, используя mixed_model()функцию из пакета GLMMadaptive , а затем использовать marginal_coefs(). Для примера, смотрите здесь .

Димитрис Ризопулос
источник
1
Спасибо Димитрис. Для моего случая с избыточными единицами (чтобы получить правильное среднее значение), я думаю, мне понадобится модифицированная модель или странная установка случайных эффектов. GLMMadaptiveПакет выглядит потрясающе для более общей установки.
Фрэнк Харрелл
2

Пару мыслей по этому поводу:

  1. Кажется, что модель со смешанным эффектом по сути является «условной» вероятностной моделью, т. Е. Какова вероятность события для субъекта, подверженного риску этого события.

  2. Мы знаем, что вероятность «1» после первого «1» равна единице. Таким образом, в последующих значениях «1» нет дополнительной информации.

  3. Кажется, что, поскольку последующие значения «1» не содержат никакой дополнительной информации, они не должны влиять на функцию правдоподобия и, таким образом, не должны влиять ни на стандартные ошибки основанных на вероятности оценок, ни на сами оценки. Действительно, не будет никакого влияния последующих значений '1', если p (y = '1' | x) = 1, независимо от значений параметров модели, как и должно быть.

  4. Мы могли бы заставить это поведение (т. Е. P (y = '1' | x) = 1) и сохранить желаемую функцию среднего значения, добавив ковариату индикатора в модель, которая помечает последующие, и принудительно увеличив коэффициент. быть очень большим, чтобы эффективно p (y = '1' | x) = 1.

  5. Как вы упомянули, может также быть способ заставить 100% -ую первую и последующие ответы иметь 100% -ную корреляцию. Но в биномиальной модели это то же самое, что и p (y = '1' | x) = 1 для последующих ответов.

Мэтт Шотвелл
источник
1
Спасибо Мэтт. Если я не хотел иметь полную модель, но довольствовался оценкой уравнений, то, что вы получаете, - это добавление дублирующих ответов к функции оценки, чтобы получить правильную функцию среднего значения, но не добавление их к информационной функции. Я не думаю, что могу добавить показатель ковариации, потому что это будет зависеть, например, от эффекта лечения. Я думаю о смешанной модели эффекта как о более безусловной модели. Когда событие не является поглощающим состоянием, вы моделируете предельные эффекты в зависимости от времени.
Фрэнк Харрелл
1

Я не совсем уверен, что вы пытаетесь сделать, но можете ли вы использовать объединенную модель логистической регрессии ( https://www.ncbi.nlm.nih.gov/pubmed/2281238 )? В этом случае вы должны включить только 1 в течение интервала терминального события - оно не будет повторяться после того, как событие произошло. Вы бы включили время в модель гибким способом (например, с использованием сплайнов).

Брайан Шепард
источник
1
Эй, Брайан - мне действительно нравится объединенная логистическая регрессия, и я часто использовал ее. Но если вы прекратите наблюдения субъекта в терминальном событии, и если другие субъекты будут следовать за этой точкой без события, вы получите неправильную функцию среднего значения (P (событие по времени t)). Я хочу получить кумулятивные оценки заболеваемости около Каплана-Мейера для средней функции, по крайней мере, в особых случаях.
Фрэнк Харрелл