В книге « Статистические модели и методы для данных за всю жизнь» написано:
Цензура: когда наблюдение является неполным по какой-либо случайной причине.
Обрезание: когда неполный характер наблюдения обусловлен систематическим процессом отбора, присущим дизайну исследования.
Что подразумевается под «систематическим процессом отбора, присущим дизайну исследования» в определении усечения?
В чем разница между цензурой и усечением?
self-study
censoring
truncation
азбука
источник
источник
Ответы:
Определения различаются, и эти два термина иногда используются взаимозаменяемо. Я попытаюсь объяснить наиболее распространенное использование, используя следующий набор данных:
Цензура : некоторые наблюдения будут подвергнуты цензуре, что означает, что мы знаем только то, что они ниже (или выше) некоторой границы. Это может произойти, например, если мы измеряем концентрацию химического вещества в пробе воды. Если концентрация слишком низкая, лабораторное оборудование не может обнаружить присутствие химического вещества. Хотя он все еще может присутствовать, поэтому мы знаем только, что концентрация ниже предела обнаружения лаборатории.
Если предел обнаружения равен 1,5, так что наблюдения, которые опускаются ниже этого предела, подвергаются цензуре, наш примерный набор данных будет выглядеть так: то есть мы не знаем фактические значения первых двух наблюдений, но только то, что они меньше 1,5.
Усечение : процесс, генерирующий данные, таков, что можно наблюдать только результаты выше (или ниже) предела усечения. Это может произойти, например, если измерения проводятся с использованием детектора, который активируется только в том случае, если обнаруживаемые им сигналы превышают определенный предел. Может быть много слабых входящих сигналов, но мы никогда не сможем сказать, используя этот детектор.
Если предел усечения равен 1,5, наш примерный набор данных станет и мы не будем знать, что на самом деле было два сигнала, которые не были записаны.
источник
Так же, как перспектива из другой области (программирование), цензура и усечение - это две разные операции.
При работе с конфиденциальным набором данных, например номерами социального страхования и телефонными номерами, я мог бы подвергнуть его цензуре или подвергнуть его цензуре до предоставления доступа:
Это позволяет остальной части приложения работать, как обычно, с аналогичными структурами данных, но без реального информационного содержания или распространения частной информации.
Усечение, напротив, обычно просто обрезает оставшиеся значения после определенной точки. Чтобы работать с приложением, мне не нужны сотни тысяч записей, возможно, мне нужно только ~ 50 каждой записи, что делает доступ к данным намного быстрее и наборы данных меньше.
Аналогичный вариант усечения при вставке значения в столбец или тип данных ограниченной длины или точности:
источник