В чем разница между цензурой и усечением?

В книге « Статистические модели и методы для данных за всю жизнь» написано:

Цензура: когда наблюдение является неполным по какой-либо случайной причине.
Обрезание: когда неполный характер наблюдения обусловлен систематическим процессом отбора, присущим дизайну исследования.

Что подразумевается под «систематическим процессом отбора, присущим дизайну исследования» в определении усечения?

self-study censoring truncation азбука
источник

Посмотрите на ответ здесь .

Дмитрий Викторович Мастеров

Цензура: «У нас где-то было наблюдение в этом регионе, но мы не знаем, что это такое». Усечение: «Наблюдение? Какое наблюдение?»

Glen_b

Где ваши определения цитируются?

Glen_b

@Glen_b Я отредактировал свой вопрос.

ABC

Ответы:

Определения различаются, и эти два термина иногда используются взаимозаменяемо. Я попытаюсь объяснить наиболее распространенное использование, используя следующий набор данных:

1 1,25 2 4 5

$1\qquad 1.25\qquad 2\qquad 4 \qquad 5$

Цензура : некоторые наблюдения будут подвергнуты цензуре, что означает, что мы знаем только то, что они ниже (или выше) некоторой границы. Это может произойти, например, если мы измеряем концентрацию химического вещества в пробе воды. Если концентрация слишком низкая, лабораторное оборудование не может обнаружить присутствие химического вещества. Хотя он все еще может присутствовать, поэтому мы знаем только, что концентрация ниже предела обнаружения лаборатории.

Если предел обнаружения равен 1,5, так что наблюдения, которые опускаются ниже этого предела, подвергаются цензуре, наш примерный набор данных будет выглядеть так: то есть мы не знаем фактические значения первых двух наблюдений, но только то, что они меньше 1,5.

< 1,5 < 1,5 2 4 5,

$<1.5\qquad <1.5\qquad 2\qquad 4 \qquad 5,$

Усечение : процесс, генерирующий данные, таков, что можно наблюдать только результаты выше (или ниже) предела усечения. Это может произойти, например, если измерения проводятся с использованием детектора, который активируется только в том случае, если обнаруживаемые им сигналы превышают определенный предел. Может быть много слабых входящих сигналов, но мы никогда не сможем сказать, используя этот детектор.

Если предел усечения равен 1,5, наш примерный набор данных станет и мы не будем знать, что на самом деле было два сигнала, которые не были записаны.

2 4 5

$2\qquad 4 \qquad 5$

MånsT
источник

Таким образом, использование терминов «цензура» вводит в заблуждение, если мы думаем в терминах нетехнического использования слова? то есть в этом статистическом смысле это означает что-то вроде «расплывчато» или «только известно, что они попадают в какой-то диапазон», а не в чем-то вроде нетехнического смысла - то есть подавляется или удаляется, как, например, когда книга извлекается из магазинов, потому что его содержания.

Марс

В качестве конкретного примера усечения, компании по страхованию автомобилей никогда не слышали об авариях, где ущерб меньше, чем франшиза, потому что люди не сообщают там. Это левое усечение; мы никогда не видим данных об этих инцидентах вообще. Для примера правильной цензуры, когда больной пациент решает прекратить посещение своего врача или переезжает в другой город, то все, что известно, это то, что они были живы в день своего ухода, но мы не знаем, когда они умерли ,

Дэвид Уайт

@Mars: я согласен, что это звучит задом наперед от современного нетехнического использования, где «цензура» удаляет все следы, а «усечение» удаляет детали. Но в статистике «цензура» используется в более старомодном нетехническом смысле, когда цензор может удалять, но не устранять следы чего-либо: черные ящики или пятна, размещенные над оскорбительными частями фото или видео, звуковые сигналы, скрывающие ненормативную лексику по радио или в письмах солдат домой или в секретных документах, где зарезервированные части (более современный термин «отредактированные») затемнены.

Уэйн

Представьте, что я измеряю промежуток времени между двумя видами событий. Но я могу записать событие только на 1 год. Будет ли время подвергаться цензуре или урезанию?

Скан

Так же, как перспектива из другой области (программирование), цензура и усечение - это две разные операции.

При работе с конфиденциальным набором данных, например номерами социального страхования и телефонными номерами, я мог бы подвергнуть его цензуре или подвергнуть его цензуре до предоставления доступа:

123-12-1234 => 999-99-9999
567-56-5678 => 999-99-9999
(906) 123-4567 => (000) 000-0000

Это позволяет остальной части приложения работать, как обычно, с аналогичными структурами данных, но без реального информационного содержания или распространения частной информации.

Усечение, напротив, обычно просто обрезает оставшиеся значения после определенной точки. Чтобы работать с приложением, мне не нужны сотни тысяч записей, возможно, мне нужно только ~ 50 каждой записи, что делает доступ к данным намного быстрее и наборы данных меньше.

Аналогичный вариант усечения при вставке значения в столбец или тип данных ограниченной длины или точности:

abcdefghijklmnopqrstuv => abcdef
10.23412421345 => 10.23
10.92455311 => 10

Ehryk
источник

+1 Важно знать, что цензура и усечение могут иметь совершенно разные значения вне статистики!

MånsT