Я пытаюсь иметь дело с анализом времени на событие, используя повторяющиеся двоичные результаты. Предположим, что время до события измеряется днями, но на данный момент мы делим время на недели. Я хочу приблизить оценку Каплана-Мейера (но учесть ковариаты), используя повторяющиеся двоичные результаты. Это может показаться окольным путем, но я исследую, как это распространяется на порядковые результаты и повторяющиеся события.
Если вы создаете двоичную последовательность, которая выглядит как 000 для кого-то, кто подвергся цензуре в 3 недели, 0000 для кого-то, кто подвергся цензуре в 4w, и 0000111111111111 .... для субъекта, который потерпел неудачу в 5w (1-е простираются до точки, в которой последний субъект был далее в исследовании), когда вы вычисляете относительные для недели пропорции 1 с, вы можете получить обычные кумулятивные инциденты (пока не дойдете до переменного времени цензуры, где это только приблизительно, но не равно кумулятивным оценкам Каплана-Мейера).
Я могу сопоставить повторяющиеся бинарные наблюдения с бинарной логистической моделью, используя GEE, вместо того, чтобы делать время дискретным, как указано выше, но вместо этого использовать сплайн во времени. Оценщик ковариации сэндвич-кластера работает достаточно хорошо. Но я бы хотел получить более точный вывод, используя модель смешанных эффектов. Проблема в том, что цифры 1 после первой 1 являются избыточными. Кто-нибудь знает способ указать случайные эффекты или указать модель, которая учитывает избыточность, чтобы стандартные ошибки не были дефлятированы?
Обратите внимание, что эта установка отличается от установки Эфрона, потому что он использовал логистические модели для оценки условных вероятностей в наборах рисков. Я оцениваю безусловные вероятности.
источник
GLMMadaptive
Пакет выглядит потрясающе для более общей установки.Пару мыслей по этому поводу:
Кажется, что модель со смешанным эффектом по сути является «условной» вероятностной моделью, т. Е. Какова вероятность события для субъекта, подверженного риску этого события.
Мы знаем, что вероятность «1» после первого «1» равна единице. Таким образом, в последующих значениях «1» нет дополнительной информации.
Кажется, что, поскольку последующие значения «1» не содержат никакой дополнительной информации, они не должны влиять на функцию правдоподобия и, таким образом, не должны влиять ни на стандартные ошибки основанных на вероятности оценок, ни на сами оценки. Действительно, не будет никакого влияния последующих значений '1', если p (y = '1' | x) = 1, независимо от значений параметров модели, как и должно быть.
Мы могли бы заставить это поведение (т. Е. P (y = '1' | x) = 1) и сохранить желаемую функцию среднего значения, добавив ковариату индикатора в модель, которая помечает последующие, и принудительно увеличив коэффициент. быть очень большим, чтобы эффективно p (y = '1' | x) = 1.
Как вы упомянули, может также быть способ заставить 100% -ую первую и последующие ответы иметь 100% -ную корреляцию. Но в биномиальной модели это то же самое, что и p (y = '1' | x) = 1 для последующих ответов.
источник
Я не совсем уверен, что вы пытаетесь сделать, но можете ли вы использовать объединенную модель логистической регрессии ( https://www.ncbi.nlm.nih.gov/pubmed/2281238 )? В этом случае вы должны включить только 1 в течение интервала терминального события - оно не будет повторяться после того, как событие произошло. Вы бы включили время в модель гибким способом (например, с использованием сплайнов).
источник