Я читал о том, что такое цензура и как ее следует учитывать при анализе выживания, но мне хотелось бы услышать менее математическое определение и более интуитивное определение (картинки были бы хорошими!). Может ли кто-нибудь дать мне объяснение 1) цензуры и 2) как это влияет на такие вещи, как кривые Каплана-Мейера и регрессия Кокса?
13
Ответы:
Цензура часто описывается в сравнении с усечением . Хорошее описание двух процессов предоставлено Gelman et al (2005, p. 235):
Цензура или усечение могут происходить для значений выше некоторого уровня (правая цензура), ниже некоторого уровня (левая цензура) или обоих.
Интуитивно понятный пример цензуры заключается в том, что вы спрашиваете своих респондентов об их возрасте, но записываете его только до некоторого значения, и все возрасты выше этого значения, например, 60 лет, записываются как «60+». Это приводит к получению точной информации о цензурированных значениях и отсутствию информации о цензурированных значениях.
Не очень типичный, реальный пример цензуры наблюдался в экзаменах по польским экзаменам на аттестат зрелости, которые привлекли большое внимание в интернете . Экзамен сдается в конце средней школы, и учащиеся должны сдать его, чтобы иметь возможность подать заявление на получение высшего образования. Можете ли вы угадать из приведенного ниже графика, какое минимальное количество баллов необходимо набрать студентам для сдачи экзамена? Неудивительно, что «пробел» в остальном нормальном распределении может быть легко «заполнен», если вы возьмете соответствующую долю перепредставленных баллов чуть выше границы цензуры.
В случае анализа выживания
(Kleinbaum and Klein, 2005, с. 5). Например, вы лечите пациентов некоторыми препаратами и наблюдаете за ними до конца исследования, но вы не знаете, что с ними происходит после окончания исследования (были ли рецидивы или побочные эффекты?), Единственное, что вы знаете, это то, что они " "выжили" по крайней мере до конца исследования.
Ниже вы можете найти пример данных, сгенерированных из распределения Вейбулла, смоделированного с помощью оценки Каплана – Мейера. Модель меток синей кривой, оцененная по полному набору данных, на среднем графике вы видите цензурированную выборку и модель, оцененную по цензурированным данным (красная кривая), справа вы видите усеченную выборку и модель, оцененную по такой выборке (красная кривая). Как видите, недостающие данные (усечение) оказывают значительное влияние на оценки, но цензурой можно легко управлять с помощью стандартных моделей анализа выживаемости.
Это не означает, что вы не можете анализировать усеченные выборки, но в таких случаях вы должны использовать модели для отсутствующих данных, которые пытаются «угадать» неизвестную информацию.
Кляйнбаум Д.Г. и Кляйн М. (2005). Анализ выживания: самообучающийся текст. Springer.
Гельман А., Карлин Дж. Б., Стерн Х.С. и Рубин Д.Б. (2005). Байесовский анализ данных. Чепмен и Холл / CRC.
источник
Цензура занимает центральное место в анализе выживания.
Основная идея заключается в том, что информация подвергается цензуре, она невидима для вас. Проще говоря, цензурное распределение продолжительности жизни получается, если вы записываете продолжительность жизни до того, как все в выборке умерли. Если вы думаете, что время движется «вправо» по оси X, это можно назвать правым цензурированием.
Есть и другие виды: левая цензура и оконная цензура. См., Например, текст Эллисон 1984 года об анализе истории событий, опубликованный Sage, для поучительного введения.
Пример: если вы рассчитываете количество разводов среди населения, вы хотите включить только тех, кто рискует развестись (то есть они состоят в браке). Если люди прекращают свой брак по причинам, отличным от развода (утраты, аннулирования), тогда вы хотите подвергнуть их цензуре. Они больше не подвергаются риску развода. Ваши оценки Каплана-Мейера (и графики) не должны включать цензурированные наблюдения после момента их цензуры, но должны включать их до этого момента.
источник