Объяснение Леймана цензуры в анализе выживания

13

Я читал о том, что такое цензура и как ее следует учитывать при анализе выживания, но мне хотелось бы услышать менее математическое определение и более интуитивное определение (картинки были бы хорошими!). Может ли кто-нибудь дать мне объяснение 1) цензуры и 2) как это влияет на такие вещи, как кривые Каплана-Мейера и регрессия Кокса?

RustyStatistician
источник
Я предлагаю прослушать подкаст « Линейное отступление», посвященный анализу выживаемости, и услышать их упрощенное определение левой и правой цензуры и мотивацию для модели Кокса.
Ури Горен

Ответы:

16

Цензура часто описывается в сравнении с усечением . Хорошее описание двух процессов предоставлено Gelman et al (2005, p. 235):

Усеченные данные отличаются от цензурированных данных тем, что подсчет наблюдений за пределами точки усечения недоступен. При цензуре значения наблюдений за пределами точки усечения теряются, но их количество наблюдается.

Цензура или усечение могут происходить для значений выше некоторого уровня (правая цензура), ниже некоторого уровня (левая цензура) или обоих.

2,02,0

введите описание изображения здесь

Интуитивно понятный пример цензуры заключается в том, что вы спрашиваете своих респондентов об их возрасте, но записываете его только до некоторого значения, и все возрасты выше этого значения, например, 60 лет, записываются как «60+». Это приводит к получению точной информации о цензурированных значениях и отсутствию информации о цензурированных значениях.

Не очень типичный, реальный пример цензуры наблюдался в экзаменах по польским экзаменам на аттестат зрелости, которые привлекли большое внимание в интернете . Экзамен сдается в конце средней школы, и учащиеся должны сдать его, чтобы иметь возможность подать заявление на получение высшего образования. Можете ли вы угадать из приведенного ниже графика, какое минимальное количество баллов необходимо набрать студентам для сдачи экзамена? Неудивительно, что «пробел» в остальном нормальном распределении может быть легко «заполнен», если вы возьмете соответствующую долю перепредставленных баллов чуть выше границы цензуры.

введите описание изображения здесь

В случае анализа выживания

цензура происходит, когда у нас есть некоторая информация об индивидуальном времени выживания, но мы точно не знаем время выживания

(Kleinbaum and Klein, 2005, с. 5). Например, вы лечите пациентов некоторыми препаратами и наблюдаете за ними до конца исследования, но вы не знаете, что с ними происходит после окончания исследования (были ли рецидивы или побочные эффекты?), Единственное, что вы знаете, это то, что они " "выжили" по крайней мере до конца исследования.

Ниже вы можете найти пример данных, сгенерированных из распределения Вейбулла, смоделированного с помощью оценки Каплана – Мейера. Модель меток синей кривой, оцененная по полному набору данных, на среднем графике вы видите цензурированную выборку и модель, оцененную по цензурированным данным (красная кривая), справа вы видите усеченную выборку и модель, оцененную по такой выборке (красная кривая). Как видите, недостающие данные (усечение) оказывают значительное влияние на оценки, но цензурой можно легко управлять с помощью стандартных моделей анализа выживаемости.

введите описание изображения здесь

Это не означает, что вы не можете анализировать усеченные выборки, но в таких случаях вы должны использовать модели для отсутствующих данных, которые пытаются «угадать» неизвестную информацию.


Кляйнбаум Д.Г. и Кляйн М. (2005). Анализ выживания: самообучающийся текст. Springer.

Гельман А., Карлин Дж. Б., Стерн Х.С. и Рубин Д.Б. (2005). Байесовский анализ данных. Чепмен и Холл / CRC.

Тим
источник
Вы знаете, откуда взялся этот сюжет с Матурой? Я пробовал гуглить и продолжал получать ссылку на Reddit, но она не содержит никаких ссылок. Это просто приводит к imgur.com без указания авторства. ОБНОВЛЕНИЕ: нашел это. cke.edu.pl//images/files/matura/informacje_o_wynikach/2013/… стр. 18.
амеба говорит восстановить
1
@amoeba, если вы заинтересованы в более подробной информации, не стесняйтесь связаться со мной. К сожалению, большинство материалов по этой теме на польском языке. Картина одна вещь, но мой друг сделал более подробный анализ этих данных (кстати, они доступны по запросу).
Тим
2

Цензура занимает центральное место в анализе выживания.

Основная идея заключается в том, что информация подвергается цензуре, она невидима для вас. Проще говоря, цензурное распределение продолжительности жизни получается, если вы записываете продолжительность жизни до того, как все в выборке умерли. Если вы думаете, что время движется «вправо» по оси X, это можно назвать правым цензурированием.

Есть и другие виды: левая цензура и оконная цензура. См., Например, текст Эллисон 1984 года об анализе истории событий, опубликованный Sage, для поучительного введения.

Пример: если вы рассчитываете количество разводов среди населения, вы хотите включить только тех, кто рискует развестись (то есть они состоят в браке). Если люди прекращают свой брак по причинам, отличным от развода (утраты, аннулирования), тогда вы хотите подвергнуть их цензуре. Они больше не подвергаются риску развода. Ваши оценки Каплана-Мейера (и графики) не должны включать цензурированные наблюдения после момента их цензуры, но должны включать их до этого момента.

torkildl
источник
Графика или сюжеты?
RustyStatistician