Я прочитал различные описания цензурированных данных:
A) Как объяснено в этой теме, не количественные данные ниже или выше определенного порога подвергаются цензуре. Неколичественно означает, что данные выше или ниже определенного порога, но мы не знаем точного значения. Затем данные помечаются при низком или высоком пороговом значении в регрессионной модели. Это соответствует описанию в этой презентации , которое я нашел очень ясным (2-й слайд на первой странице). Другими словами, ограничен либо минимальным, максимальным значением, либо и тем и другим, потому что мы не знаем истинного значения за пределами этого диапазона.
Б) Друг сказал мне, что мы можем применить цензурированную модель данных к частично неизвестным наблюдениям , при условии, что у нас есть хотя бы некоторая ограниченная информация о неизвестных результатах . Например, мы хотим оценить окончательную цену для комбинации тихих и открытых аукционов на основе некоторых качественных критериев (тип товаров, страна, благосостояние участников и т. Д.). В то время как для открытых аукционов мы знаем все окончательные цены , для тихих аукционов мы знаем только первую ставку (скажем, 1000 долларов США), но не окончательную цену. Мне сказали, что в этом случае данные подвергаются цензуре сверху и должна применяться модель цензуры регрессии.
C) Наконец, есть определение, данное в Википедии, где вообще отсутствует, но предикторы доступны. Я не уверен, как этот пример отличается от усеченных данных.
Так что же такое цензура данных?
источник
Ответы:
Рассмотрим следующие данные об исходе и ковариате xy x :
Для пользователя 1 у нас есть полные данные. Для всех остальных у нас есть неполные данные. Пользователи 2, 3 и 4 подвергаются цензуре: результат, соответствующий известным значениям ковариаты, не наблюдается или не наблюдается точно (левая, правая и интервальная цензура). Иногда это артефакт из соображений конфиденциальности в дизайне опроса. В других случаях это происходит по другим причинам. Например, мы не наблюдаем какой-либо заработной платы ниже минимальной заработной платы или фактической потребности в концертных билетах сверх вместимости арены.
Пользователь 5 усекается: и результат, и ковариата отсутствуют. Обычно это происходит потому, что мы собираем данные только о людях, которые что-то сделали. Например, мы опрашиваем только людей, которые что-то купили ( ), поэтому мы исключаем всех, у которых y = 0, вместе с их x s. У нас может даже не быть строки для этого типа пользователя в наших данных, хотя мы знаем, что они существуют, потому что мы знаем правило, которое использовалось для генерации нашего образца. Другим примером является случайное усечение: мы наблюдаем предложения по заработной плате только для людей, которые находятся в рабочей силе, потому что мы предполагаем, что предложение по заработной плате является заработной платой, когда вы работаете. Усечение является случайным, поскольку зависит не от другой переменной, а от нее .Y> 0 Y= 0 Икс Y
Короче говоря, усечение подразумевает большую потерю информации, чем цензура (пункты A и B). Оба эти типа "пропущенных" являются систематическими.
Работа с этим типом данных обычно подразумевает строгое предположение об ошибке и изменение вероятности ее учета. Также возможны более гибкие полупараметрические подходы. Это подразумевается в вашей точке B.
источник
Описательно говоря, я бы предложил «выборка данных подвергается цензуре, если некоторые наблюдения в ней принимают или составляют экстремальные значения выборки, но их истинное значение находится за пределами наблюдаемого диапазона выборки». Но это обманчиво просто.
Итак, давайте сначала обсудим, как мы можем сделать вывод, что набор данных подвергается цензуре, что, естественно, приведет нас к обсуждению случаев, представленных в вопросе.
Предположим, нам дан следующий набор данных из дискретной случайной величины , для которого мы знаем только то, что она неотрицательна:X
Можно ли сказать, что набор данных подвергается цензуре? Ну, мы вправе думать, что это может быть, но это не обязательно так:
1) может иметь диапазон { 0 , 1 , 2 } и распределение вероятностей { 0,1 , 0,1 ,X {0,1,2} {0.1,0.1,0.8} . Если это действительно так, то, похоже, здесь нет цензуры, просто «ожидаемая» выборка из такой случайной величины с ограниченной поддержкой и сильно асимметричным распределением.
2) Но это может быть так , что имеет диапазон { 0 , 1 , . , , , 9 } с равномерным распределением вероятностей { 0,1 , 0,1 , . , +0,0X {0,1,...,9} , и в этом случае наша выборка данных, скорее всего, подвергнута цензуре. {0.1,0.1,...0.1}
Как мы можем сказать? Мы не можем, за исключением тех случаев, когда у нас есть предварительные знания или информация , которые позволят нам выступить в пользу того или другого дела. Представляют ли три случая, представленные в вопросе, предварительные знания о влиянии цензуры? Посмотрим:
Случай А) описывает ситуацию, когда для некоторых наблюдений мы имеем только качественную информацию, такую как «очень большая», «очень маленькая» и т. Д., Что приводит нас к тому, что мы присваиваем наблюдению экстремальное значение. Обратите внимание, что простое незнание фактического реализованного значения не оправдывает присвоение экстремального значения. Итак, мы должны иметь некоторую информацию о том, что для этих наблюдений их значение превышает или ниже всех наблюдаемых. В этом случае фактический диапазон случайной величины неизвестен, но наша качественная информация позволяет нам создать цензурированную выборку (это еще одно обсуждение того, почему мы не просто отбрасываем наблюдения, для которых мы не обладаем фактическим реализованным значением ).
Случай B) - это не случай цензуры, если я правильно понимаю, а случай зараженного образца: наша априорная информация говорит нам, что максимальное значение случайной величины не может превышать (скажем, по физическому закону или социальный закон - предположим, что это данные оценок из системы оценок, которая использует только значения 1 , 2 , 3 ). Но мы наблюдали также значение 4 и значение 5 . Как это может быть? Ошибка в записи данных. Но в таком случае мы не знаем наверняка, что 4 и 5 должны быть все 33 1,2,3 4 5 4 5 3 (на самом деле, глядя на боковую клавиатуру компьютера, более вероятно, что - это 1 , а 5 - это 2 !). «Корректируя» каким-либо образом выборку, мы не делаем ее цензурированной, посколькув первую очередьслучайная переменная не должна находиться взарегистрированномдиапазоне (таким образом, истинным вероятностям, назначенным значениям 4 и4 1 5 2 4 ). 5
Случай C) относится к совместной выборке, где у нас есть зависимая переменная и предикторы. Здесь мы можем иметь выборку, в которой значения зависимой переменной сконцентрированы на одном или обоих экстремумах из-за структуры изучаемого явления: в обычном примере «отработанное время» безработные не работают, но они будут иметь работал (подумайте внимательно: действительно ли этот случай подпадает под описательное «определение» в начале этого ответа?). Так что включение их в регрессию с записанными часами "ноль" создает уклон. С другой стороны, можно утверждать, что максимальное количество отработанного часа может достигать, скажем,16 / день, и могут быть сотрудники, которые готовы работать так много за вознаграждение. Но законодательная база не позволяет этого, и поэтому мы не наблюдаем такие «отработанные часы». Здесь мы пытаемся оценить « функцию предполагаемого предложения труда» - и именно в отношении этой переменной выборка характеризуется как цензурированная.
Но если бы мы заявили, что мы хотим оценить «функцию предложения рабочей силы с учетом феномена безработицы и правовой базы», выборка не будет подвергаться цензуре, поскольку она будет отражать влияние этих двух аспектов, то, что мы хотим это делать.
Таким образом, мы видим, что характеристика выборки данных как цензуры
а) может исходить из разных ситуаций и
б) требует некоторой осторожности -
только тот факт, что ее можно спутать со случаем усечения .
источник
Для меня цензура означает, что мы наблюдаем частичную информацию о наблюдении . Под этим я подразумеваю, что вместо того, чтобы наблюдать Z i = z i, мы наблюдаем Z i ∈ a i, где a i - реализация A i , что является некоторым случайным укрупнением пространства образца. Мы можем себе представить, что сначала мы выбираем разбиение A i в образце пространства Z , затем генерируется Z i и сообщаем A i ∈ A i так , чтоZi Zi=zi Zi∈ai ai Ai Ai Z Zi Ai∈Ai (эквивалентно, мы сообщаем I ( Z i ∈ A ) для всех A ∈ A i ). Например,неинформативная цензура Z i означает, что A i не зависит от Z i .Zi∈Ai I(Zi∈A) A∈Ai Zi Ai Zi
источник
Важно различать цензурированные и усеченные, а также отсутствующие данные.
Цензура применяется, в частности, к вопросу анализа выживания и результатов по времени, когда предполагается, что рассматриваемое событие произошло в какое-то время после того момента, когда вы перестали наблюдать за этим человеком . Примером могут служить мужчины, имеющие половые контакты с мужчинами (МСМ), и риск заражения ВИЧ-инфекцией в проспективном исследовании, которые перемещают и прекращают контакт с координаторами исследования.
Усечение применяется к непрерывной переменной, которая оценивает конкретную точку, в которой известно, что фактическое значение больше или меньше этой точки. Примером является мониторинг субъектов с ВИЧ и развитие полномасштабного СПИДа, количество клеток CD4, опускающееся ниже 300, оценивается до нижнего предела обнаружения 300.
Lastly, missing data are data that have actual values that are not observed in any sense. Censored data are not missing time-to-event data nor are they truncated.
источник
источник