Хорошо, честное предупреждение - это философский вопрос, в котором нет цифр. Я много размышлял о том, как ошибки проникают в наборы данных с течением времени и как это следует обрабатывать аналитикам - или это вообще должно иметь значение?
Для справки, я делаю анализ долгосрочного исследования, которое включает в себя множество наборов данных, собранных, вероятно, 25 людьми за 7-8 лет - никто никогда не приводил все данные в единую структуру (это моя работа). Я много занимался вводом данных (транскрибирование с фотокопий старых лабораторных тетрадей), и я продолжаю находить небольшие ошибки транскрипции, которые делали другие люди, а также нахожу записи данных, которые трудно или невозможно прочитать - в основном из-за чернил со временем исчез Я использую контекст, чтобы составить «лучшие предположения» о том, что говорят данные, и оставляя данные, если я не совсем уверен, вообще указываю. Но я продолжаю думать о том, что при каждом копировании данных частота ошибок неизбежно будет увеличиваться, пока исходные данные не будут полностью потеряны.
Итак, это подводит меня к мысли: помимо ошибок прибора / измерений и ошибок записи, есть фундаментальный компонент «ошибка обработки данных», который будет увеличиваться со временем и с большей обработкой данных (примечание: это, вероятно, просто еще один способ сформулировать второй закон термодинамики, верно? Энтропия данных всегда будет увеличиваться). Следовательно, мне интересно, должна ли быть введена какая-то «коррекция» для учета истории жизни наборов данных (что-то вроде коррекции Бонферрони)? Другими словами, должны ли мы предполагать, что старые или более скопированные наборы данных менее точны, и если да, следует ли нам соответствующим образом корректировать результаты?
Но с другой стороны, я думаю, что ошибки являются неотъемлемой частью сбора и обработки данных, и, поскольку все статистические тесты были разработаны с использованием реальных данных, возможно, эти источники ошибок уже «оценены» для анализа?
Кроме того, еще один момент, который стоит упомянуть, состоит в том, что, поскольку ошибки в данных являются случайными, они с гораздо большей вероятностью уменьшают силу результатов, чем улучшают их - другими словами, ошибки обработки данных могут привести к ошибкам типа 2, а не к ошибкам типа 1. , Таким образом, во многих случаях, если вы использовали старые / сомнительные данные и все еще находили эффект, это увеличило бы вашу уверенность в том, что эффект реален (потому что он был достаточно силен, чтобы выдержать добавление случайной ошибки к набору данных). По этой причине, возможно, «исправление» должно пойти другим путем (увеличить альфа-уровень, необходимый для «обнаружения»), или просто не беспокоить нас?
Во всяком случае, извините за столь многословный и тупой, я не совсем уверен, как задать этот вопрос более кратко. Спасибо за терпение со мной.
Ответы:
Второе предложение @Aksakal: если аналитик считает ошибку измерения потенциально важной, она может и должна быть явно смоделирована как часть процесса генерирования данных.
Я вижу несколько соображений, которые противоречат введению общего поправочного коэффициента, основанного, например, на возрасте набора данных.
Во-первых, возраст может быть очень плохим показателем степени ухудшения данных. Очевидно, что важными факторами являются технология дублирования, сжатия и сохранения, а также степень усилий и тщательности, которые были приложены для проверки правильности транскрипции. Некоторые древние тексты (например, Библия) были сохранены на протяжении веков с явно нулевой деградацией. Ваш пример VHS, хотя и является законным, на самом деле необычен, так как каждое событие дублирования всегда приводит к ошибке, и нет простых способов проверить и исправить ошибки транскрипции, если использовать дешевые, широко доступные технологии для дублирования и хранения. Я ожидаю, что это значительно снизит степень ошибок, благодаря инвестициям в более дорогие системы.
Этот последний пункт является более общим: сохранение и распространение данных являются экономической деятельностью. Качество передачи в значительной степени зависит от используемых ресурсов. Эти выборы, в свою очередь, будут зависеть от воспринимаемой важности данных для тех, кто выполняет дублирование и передачу.
Экономические соображения применимы и к аналитику. Всегда есть больше факторов, которые вы можете принять во внимание при проведении анализа. При каких условиях ошибки транскрипции данных будут достаточно существенными и достаточно важными, чтобы их стоило учитывать? Моя догадка: такие условия не являются общими. Более того, если потенциальная деградация данных рассматривается как достаточно важная, чтобы учесть ее в вашем анализе, то, вероятно, достаточно важно приложить усилия для явного моделирования процесса, а не вставлять общий шаг «исправления».
Наконец, нет необходимости разрабатывать такой общий поправочный коэффициент de novo . Уже существует значительный объем статистической теории и практики для анализа наборов данных, для которых ошибка измерения считается важной.
В итоге: это интересная мысль. Но я не думаю, что это должно стимулировать какие-либо изменения в аналитической практике.
источник