Что именно цензурированные данные?

14

Я прочитал различные описания цензурированных данных:

A) Как объяснено в этой теме, не количественные данные ниже или выше определенного порога подвергаются цензуре. Неколичественно означает, что данные выше или ниже определенного порога, но мы не знаем точного значения. Затем данные помечаются при низком или высоком пороговом значении в регрессионной модели. Это соответствует описанию в этой презентации , которое я нашел очень ясным (2-й слайд на первой странице). Другими словами, Y ограничен либо минимальным, максимальным значением, либо и тем и другим, потому что мы не знаем истинного значения за пределами этого диапазона.

Б) Друг сказал мне, что мы можем применить цензурированную модель данных к частично неизвестным наблюдениям Y , при условии, что у нас есть хотя бы некоторая ограниченная информация о неизвестных результатах Yя . Например, мы хотим оценить окончательную цену для комбинации тихих и открытых аукционов на основе некоторых качественных критериев (тип товаров, страна, благосостояние участников и т. Д.). В то время как для открытых аукционов мы знаем все окончательные цены Yя , для тихих аукционов мы знаем только первую ставку (скажем, 1000 долларов США), но не окончательную цену. Мне сказали, что в этом случае данные подвергаются цензуре сверху и должна применяться модель цензуры регрессии.

C) Наконец, есть определение, данное в Википедии, где вообще отсутствует, но предикторы доступны. Я не уверен, как этот пример отличается от усеченных данных.Y

Так что же такое цензура данных?

Роберт Кубрик
источник
6
Более релевантная статья в Википедии находится по адресу en.wikipedia.org/wiki/Censoring_%28statistics%29 . Несмотря на то, что он не является исчерпывающим, он, по крайней мере, описывает цензуру Типа I и Типа II и подтверждает цензуру интервалов наряду с левой и правой цензурой.
whuber

Ответы:

8

Рассмотрим следующие данные об исходе и ковариате xYИкс :

user y       x   
1    10      2 
2   (-∞,5]   3 
3   [4,+∞)   5   
4   [8,9]    7
5     .      .

Для пользователя 1 у нас есть полные данные. Для всех остальных у нас есть неполные данные. Пользователи 2, 3 и 4 подвергаются цензуре: результат, соответствующий известным значениям ковариаты, не наблюдается или не наблюдается точно (левая, правая и интервальная цензура). Иногда это артефакт из соображений конфиденциальности в дизайне опроса. В других случаях это происходит по другим причинам. Например, мы не наблюдаем какой-либо заработной платы ниже минимальной заработной платы или фактической потребности в концертных билетах сверх вместимости арены.

Пользователь 5 усекается: и результат, и ковариата отсутствуют. Обычно это происходит потому, что мы собираем данные только о людях, которые что-то сделали. Например, мы опрашиваем только людей, которые что-то купили ( ), поэтому мы исключаем всех, у которых y = 0, вместе с их x s. У нас может даже не быть строки для этого типа пользователя в наших данных, хотя мы знаем, что они существуют, потому что мы знаем правило, которое использовалось для генерации нашего образца. Другим примером является случайное усечение: мы наблюдаем предложения по заработной плате только для людей, которые находятся в рабочей силе, потому что мы предполагаем, что предложение по заработной плате является заработной платой, когда вы работаете. Усечение является случайным, поскольку зависит не от другой переменной, а от нее . Y>0Yзнак равно0ИксY

Короче говоря, усечение подразумевает большую потерю информации, чем цензура (пункты A и B). Оба эти типа "пропущенных" являются систематическими.

Работа с этим типом данных обычно подразумевает строгое предположение об ошибке и изменение вероятности ее учета. Также возможны более гибкие полупараметрические подходы. Это подразумевается в вашей точке B.

Димитрий Васильевич Мастеров
источник
2
Два аспекта этого ответа смущают меня. Во-первых, пропущенные значения не обязательно отражают усечение. Во-вторых, способ цензуры («случайный» или «информативный») часто так же важен, как и факт цензуры, указывая на то, что цензура - это нечто большее, чем простая запись данных с интервалом.
whuber
Это очень хороший пример. Означает ли это, что разные «пределы цензуры» могут применяться к каждому ? Как мы сформулируем модель в этом случае? Это подтвердит утверждение моего друга в B). Y
Роберт Кубрик
1
Если вы готовы принять гомоскедастические, нормально распределенные ошибки, вероятность можно записать следующим образом, и вы можете использовать MLE с пороговыми значениями цензуры для конкретных наблюдений.
Дмитрий Васильевич Мастеров
3
@ Питер Разве это (правильно) не подвергается цензуре? Усечение будет иметь место, когда все такие люди исключены из выборки и вообще не учитываются в выборке. См. En.wikipedia.org/wiki/Truncation_(statistics) .
whuber
1
@Peter Что сбивает с толку, когда вы пишете «тогда мы знаем, что ИМТ этого человека превышает 30»: как вы можете ссылаться на человека, которого нет даже в вашей выборке («не подсчитали»)? Наблюдение в форме «ИМТ> 30» является цензурой, тогда как полное исключение всех таких наблюдений из вашего анализа, даже если они могут существовать в популяции, является усечением. В последнем случае все, что вы можете сказать, это «люди с ИМТ выше 30 были исключены из выборки».
whuber
9

Описательно говоря, я бы предложил «выборка данных подвергается цензуре, если некоторые наблюдения в ней принимают или составляют экстремальные значения выборки, но их истинное значение находится за пределами наблюдаемого диапазона выборки». Но это обманчиво просто.

Итак, давайте сначала обсудим, как мы можем сделать вывод, что набор данных подвергается цензуре, что, естественно, приведет нас к обсуждению случаев, представленных в вопросе.

Предположим, нам дан следующий набор данных из дискретной случайной величины , для которого мы знаем только то, что она неотрицательна:X

{0,1,1,2,2,2,2,2,2,2}

Можно ли сказать, что набор данных подвергается цензуре? Ну, мы вправе думать, что это может быть, но это не обязательно так:

1) может иметь диапазон { 0 , 1 , 2 } и распределение вероятностей { 0,1 , 0,1 ,X{0,1,2}{0.1,0.1,0.8} . Если это действительно так, то, похоже, здесь нет цензуры, просто «ожидаемая» выборка из такой случайной величины с ограниченной поддержкой и сильно асимметричным распределением.

2) Но это может быть так , что имеет диапазон { 0 , 1 , . , , , 9 } с равномерным распределением вероятностей { 0,1 , 0,1 , . , +0,0X{0,1,...,9} , и в этом случае наша выборка данных, скорее всего, подвергнута цензуре. {0.1,0.1,...0.1}

Как мы можем сказать? Мы не можем, за исключением тех случаев, когда у нас есть предварительные знания или информация , которые позволят нам выступить в пользу того или другого дела. Представляют ли три случая, представленные в вопросе, предварительные знания о влиянии цензуры? Посмотрим:

Случай А) описывает ситуацию, когда для некоторых наблюдений мы имеем только качественную информацию, такую ​​как «очень большая», «очень маленькая» и т. Д., Что приводит нас к тому, что мы присваиваем наблюдению экстремальное значение. Обратите внимание, что простое незнание фактического реализованного значения не оправдывает присвоение экстремального значения. Итак, мы должны иметь некоторую информацию о том, что для этих наблюдений их значение превышает или ниже всех наблюдаемых. В этом случае фактический диапазон случайной величины неизвестен, но наша качественная информация позволяет нам создать цензурированную выборку (это еще одно обсуждение того, почему мы не просто отбрасываем наблюдения, для которых мы не обладаем фактическим реализованным значением ).

Случай B) - это не случай цензуры, если я правильно понимаю, а случай зараженного образца: наша априорная информация говорит нам, что максимальное значение случайной величины не может превышать (скажем, по физическому закону или социальный закон - предположим, что это данные оценок из системы оценок, которая использует только значения 1 , 2 , 3 ). Но мы наблюдали также значение 4 и значение 5 . Как это может быть? Ошибка в записи данных. Но в таком случае мы не знаем наверняка, что 4 и 5 должны быть все 331,2,345453 (на самом деле, глядя на боковую клавиатуру компьютера, более вероятно, что - это 1 , а 5 - это 2 !). «Корректируя» каким-либо образом выборку, мы не делаем ее цензурированной, посколькув первую очередьслучайная переменная не должна находиться взарегистрированномдиапазоне (таким образом, истинным вероятностям, назначенным значениям 4 и41524 ). 5

Случай C) относится к совместной выборке, где у нас есть зависимая переменная и предикторы. Здесь мы можем иметь выборку, в которой значения зависимой переменной сконцентрированы на одном или обоих экстремумах из-за структуры изучаемого явления: в обычном примере «отработанное время» безработные не работают, но они будут иметь работал (подумайте внимательно: действительно ли этот случай подпадает под описательное «определение» в начале этого ответа?). Так что включение их в регрессию с записанными часами "ноль" создает уклон. С другой стороны, можно утверждать, что максимальное количество отработанного часа может достигать, скажем, 16/ день, и могут быть сотрудники, которые готовы работать так много за вознаграждение. Но законодательная база не позволяет этого, и поэтому мы не наблюдаем такие «отработанные часы». Здесь мы пытаемся оценить « функцию предполагаемого предложения труда» - и именно в отношении этой переменной выборка характеризуется как цензурированная.
Но если бы мы заявили, что мы хотим оценить «функцию предложения рабочей силы с учетом феномена безработицы и правовой базы», ​​выборка не будет подвергаться цензуре, поскольку она будет отражать влияние этих двух аспектов, то, что мы хотим это делать.

Таким образом, мы видим, что характеристика выборки данных как цензуры
а) может исходить из разных ситуаций и
б) требует некоторой осторожности -
только тот факт, что ее можно спутать со случаем усечения .

Алекос Пападопулос
источник
6
Это похоже на эконометрическую перспективу. Обратите внимание, что в биомедицинских исследованиях принято иметь продолжительность (возможно, буквальное выживание) в качестве ответа, а также подвергать пациентов цензуре, не испытав события до конца периода наблюдения. Но также иметь пациентов, которые бросили или были потеряны для наблюдения в течение периода наблюдения. (Возможно, они отошли, и контакт был потерян.) Мы можем знать, что время выживания> последний контакт, но может быть короче, чем конец периода наблюдения.
gung - Восстановить Монику
Случай B не для неправильных или загрязненных данных. Предположим, мы хотим оценить окончательную цену комбинации тихих и открытых аукционов на основе некоторых качественных критериев (тип товаров, страна, богатство участников торгов, ...). Для тихих аукционов мы знаем только первую ставку (скажем, 1000 долларов), но не окончательную цену. Мне сказали, что мы можем использовать данные тихих аукционов, используя некоторую форму цензурированного моделирования.
Роберт Кубрик
1
@ Gung это, безусловно, эконометрический подход, учитывая, кто написал ответ!
Алекос Пападопулос
1
@RobertKunrick То, что вы описываете, не соответствует случаю B. При описании случая B мы наблюдаем диапазон значений, а затем нам говорят, что некоторые из наблюдаемых значений в действительности невозможны. Как это совпадает с примером аукциона?
Алекос Пападопулос
Пожалуйста, не воспринимайте это как критику, @AlecosPapadopoulos. Я не думаю, что есть что-то неправильное. Я просто хочу отметить, что термины используются по-разному в разных областях, и это не соглашение о стат / биостат.
gung - Восстановить Монику
2

Для меня цензура означает, что мы наблюдаем частичную информацию о наблюдении . Под этим я подразумеваю, что вместо того, чтобы наблюдать Z i = z i, мы наблюдаем Z ia i, где a i - реализация A i , что является некоторым случайным укрупнением пространства образца. Мы можем себе представить, что сначала мы выбираем разбиение A i в образце пространства Z , затем генерируется Z i и сообщаем A iA i так , чтоZiZi=ziZiaiaiAiAiZZiAiAi (эквивалентно, мы сообщаем I ( Z iA ) для всех A A i ). Например,неинформативная цензура Z i означает, что A i не зависит от Z i .ZiAiI(ZiA)AAiZiAiZi

[ZiZiai]ZiZi=(Xi,Yi)Yiai={x}×YYYZiai=ZZiZi

парень
источник
1

Важно различать цензурированные и усеченные, а также отсутствующие данные.

Цензура применяется, в частности, к вопросу анализа выживания и результатов по времени, когда предполагается, что рассматриваемое событие произошло в какое-то время после того момента, когда вы перестали наблюдать за этим человеком . Примером могут служить мужчины, имеющие половые контакты с мужчинами (МСМ), и риск заражения ВИЧ-инфекцией в проспективном исследовании, которые перемещают и прекращают контакт с координаторами исследования.

Усечение применяется к непрерывной переменной, которая оценивает конкретную точку, в которой известно, что фактическое значение больше или меньше этой точки. Примером является мониторинг субъектов с ВИЧ и развитие полномасштабного СПИДа, количество клеток CD4, опускающееся ниже 300, оценивается до нижнего предела обнаружения 300.

Lastly, missing data are data that have actual values that are not observed in any sense. Censored data are not missing time-to-event data nor are they truncated.

AdamO
источник
1
Есть и другое использование «усечения»: для описания процесса генерации данных, когда наблюдения выше / ниже пороговых значений недоступны. Классический пример включает подсчет яиц, найденных в гнездах определенного вида птиц, где вид можно идентифицировать только из яйца; Пустые гнезда могут быть из любого вида, поэтому нет. нули неизвестно. Если нет яйца следуют за распределением Пуассона, число яиц из непустых гнезд следует за усеченным пуассоном. Таким образом, усечение приводит к отсутствующим данным в соответствии с определенным четко определенным механизмом.
Scortchi - Восстановить Монику
1
... Ваши данные о количестве клеток действительно подвергаются цензуре в соответствии с пониманием этого термина многими людьми, которое не ограничивается измерениями времени до события, потому что вы знаете все о каждом предмете, кроме того, как далеко ниже 300 его количество клеток; «усечение» здесь (альтернативно «Winsorization») описывает метод анализа, а именно обработку значений ниже 300, как если бы они были равны 300.
Scortchi - Восстановить Монику
Четкая ссылка на концепцию анализа цензуры на выживание: itl.nist.gov/div898/handbook/apr/section1/apr131.htm .
Эрик О Лебиго
-1
  1. Цензура: это термин, используемый для обозначения того, что период наблюдения был отрезан до того, как произошло интересующее событие. Таким образом, «цензурированные данные» указывают на то, что период определенного события не произошел или не произошел
Абдулфата Лаваль
источник
3
Добро пожаловать на сайт. Если это скопировано из какого-либо источника, пожалуйста, укажите источник.
gung - Восстановить Монику
3
Цензура применяется гораздо больше, чем зависящие от времени наблюдения. Например, измерения химических концентраций, которые ниже предела обнаружения, также подвергаются цензуре.
whuber
@whuber: Могу ли я предложить дружескую поправку к этому наблюдению. Химические концентрации, которые падают ниже предела обнаружения, действительно подвергаются цензуре, но, поскольку они не могут быть отрицательными, анализы должны рассматривать их как усеченные до нуля. Мое собственное понимание различия между усечением и цензурой заключается в том, что усечение применяется к диапазону параметров, которые возможны для базового распределения.
Двине
@DWin Thank you for that thoughtful clarification. I can only agree with the first point. In the great majority of datasets I have analyzed, though, it was necessary to re-express concentrations as logarithms--and there the distinction disappears. In other datasets where background has been subtracted (such as radiological measurements), there is no definite left endpoint, either. Your second point strikes me as unusual: I have never seen "truncation" used to refer to creating a subset of a distribution family.
whuber