Я смотрю на среднюю выживаемость, используя Каплан-Мейер в разных штатах для типа рака. Между штатами довольно большие различия. Как я могу сравнить медианное выживание между всеми штатами и определить, какие из них значительно отличаются от среднего медианного выживания по всей стране?
12
Ответы:
Кривая выживания Каплана-Мейера должна иметь в виду, что она в основном носит описательный характер, а не выводится . Это просто функция данных, за которой скрывается невероятно гибкая модель. Это сила, потому что это означает, что нет практически никаких предположений, которые могут быть нарушены, но есть слабость, потому что это трудно обобщить, и что это соответствует как «шуму», так и «сигналу». Если вы хотите сделать вывод, то в основном вы должны представить нечто неизвестное, что вы хотите знать.
Теперь один из способов сравнить среднее время выживания - сделать следующие допущения:
Теперь «самым консервативным» способом использования этих допущений является принцип максимальной энтропии, поэтому вы получите:
Где и выбраны так, что PDF нормализуется, и ожидаемое значение равно . Теперь у нас есть:λ t iK λ ti
= K [ - е х р ( - λ Т я )
И поэтому у вас есть набор распределений вероятностей для каждого состояния.
Которые дают совместное распределение вероятностей:
Похоже, вы хотите проверить гипотезу , где - среднее медианное время выживания. Суровая альтернативная гипотеза для проверки - гипотеза «каждое состояние - уникальная и красивая снежинка» потому что это наиболее вероятная альтернатива, и, таким образом, представляет информацию, потерянную при переходе к более простой гипотезе («минимаксный» тест). Мера доказательств против более простой гипотезы дается соотношением шансов:H0:T1=T2=⋯=TN=t¯ t¯=1N∑Ni=1ti HA:T1=t1,…,TN=tN
где
это среднее гармоническое. Обратите внимание, что шансы всегда будут благоприятствовать идеальной подгонке, но не намного, если среднее время выживания достаточно близко. Кроме того, это дает вам прямой способ изложить доказательства этого конкретного теста гипотезы:
допущения 1-3 дают максимальные шансы против равного среднего времени выживания во всех штатахO(HA|H0):1
Объедините это с правилом принятия решений, функцией потерь, функцией полезности и т. Д., Которая говорит о том, как выгодно принять более простую гипотезу, и вы получите свой вывод!
Нет ограничений на количество гипотез, на которые вы можете проверить, и на которые вы можете рассчитывать. Просто измените чтобы указать другой набор возможных «истинных значений». Вы можете сделать «проверку значимости», выбрав гипотезу как:H0
Так что эта гипотеза устно «состояние у отличается медиана выживаемости, но все остальные состояния одинаковы». А затем повторите расчет коэффициента шансов, который я сделал выше. Хотя вы должны быть осторожны с альтернативной гипотезой. Любой из перечисленных ниже является «разумным» в том смысле, что это могут быть вопросы, на которые вы заинтересованы ответить (и они, как правило, будут иметь разные ответы)i
Теперь одна вещь, которая была здесь упущена, это корреляции между состояниями - эта структура предполагает, что знание средней выживаемости в одном штате ничего не говорит вам о средней выживаемости в другом состоянии. Хотя это может показаться «плохим», его нетрудно улучшить, и приведенные выше расчеты являются хорошими начальными результатами, которые легко рассчитать.
Добавление связей между состояниями изменит модели вероятности, и вы фактически увидите некоторое «объединение» медианного времени выживания. Одним из способов включения корреляций в анализ является разделение истинного времени выживания на две составляющие: «общая часть» или «тренд» и «индивидуальная часть»:
А затем ограничьте отдельную часть средним нулем по всем единицам и неизвестной дисперсией чтобы интегрировать ее, используя предварительное описание того, что вы знаете об индивидуальной изменчивости, перед наблюдением данных (или джефриса, если вы ничего не знаю, и наполовину коучи, если джефри вызывает проблемы). σUi σ
источник
Думаю, я просто добавлю к этой теме, что вас может заинтересовать квантильная регрессия с цензурой. Bottai & Zhang 2010 предложили «Регрессию Лапласа», которая может выполнить только эту задачу, вы можете найти PDF-файл по этому вопросу здесь . Для этого есть пакет для Stata, он еще не был переведен в R, хотя пакет Quantreg в R имеет функцию для цензурированной квантильной регрессии, crq , которая может быть опцией.
Я думаю, что этот подход очень интересен и может быть гораздо более интуитивным для пациентов с коэффициентами риска. Например, зная, что 50% препарата остаются на 2 месяца больше, чем те, которые не принимают препарат, а побочные эффекты вынуждают вас оставаться в больнице 1-2 месяца, что может значительно облегчить выбор лечения.
источник
Сначала я бы визуализировал данные: вычислил доверительные интервалы и стандартные ошибки для медианных выживаемостей в каждом штате и показал CI на лесном участке, медианы и их SE, используя воронкообразный график.
«Среднее медианное выживание по всей стране» - это величина, которая оценивается на основе данных и, следовательно, имеет неопределенность, поэтому вы не можете принять ее в качестве точного эталонного значения во время тестирования значимости. Другая трудность с подходом среднего значения состоит в том, что когда вы сравниваете медиану состояния с ним, вы сравниваете медиану с величиной, которая уже включает эту величину в качестве компонента. Таким образом, легче сравнивать каждое состояние со всеми другими состояниями вместе взятыми. Это можно сделать, выполнив проверку лог-ранга (или ее альтернатив) для каждого состояния.
(Отредактируйте после прочтения ответа вероятностной логики: критерий лог-ранга сравнивает выживаемость в двух (или более) группах, но это не строго медиана, которую он сравнивает. Если вы уверены, что это медиана, которую вы хотите сравнить, Вы можете полагаться на его уравнения или использовать здесь тоже пересчет)
Вы пометили свой вопрос [множественные сравнения], поэтому я предполагаю, что вы также хотите скорректировать (увеличить) ваши значения p таким образом, чтобы, если вы видите хотя бы одно скорректированное значение p менее 5%, вы могли бы заключить, что «медиана выживаемости по штатам не равный »на уровне значимости 5%. Вы можете использовать общие и чрезмерно консервативные методы, такие как Bonferroni, но оптимальная схема коррекции будет учитывать корреляции значений p. Я предполагаю, что вы не хотите встраивать какие-либо априорные знания в схему коррекции, поэтому я расскажу о схеме, в которой корректировка умножает каждое значение p на одну и ту же константу C.
Поскольку я не знаю, как вывести формулу для получения оптимального множителя C, я бы использовал повторную выборку . В соответствии с нулевой гипотезой, что характеристики выживания одинаковы во всех состояниях, вы можете переставлять метки состояний случаев рака и пересчитывать медианы. После получения множества векторов значений p с передискретизацией я бы численно нашел множитель C, ниже которого менее 95% векторов не имеют значимых значений p и выше которого более 95%. В то время как диапазон выглядит широким, я бы многократно увеличил количество повторных выборок на порядок.
источник