Я читал эту статью в Природе, в которой некоторые ошибки объясняются в контексте анализа данных. Я заметил, что ошибки техасского снайпера было особенно трудно избежать:
Когнитивная ловушка, которая ожидает во время анализа данных, проиллюстрирована басней о техасском снайпере: неумелый меткий стрелок, который стреляет случайным образом из пуль сбоку сарая, рисует цель вокруг самого большого скопления пулевых отверстий и гордо указывает на его успех.
Его яблочко явно смешно - но заблуждение не столь очевидно для игроков, которые верят в «горячую руку», когда у них есть серия побед, или для людей, которые видят сверхъестественное значение, когда розыгрыш лотереи выпадает из всех нечетных чисел.
И это не всегда очевидно для исследователей. «Вы просто получаете некоторую поддержку от данных, а затем думаете, что это путь, по которому надо идти», - говорит Пашлер. «Вы не понимаете, что у вас было 27 различных вариантов, и вы выбрали тот, который дал вам наиболее приятные или интересные результаты, и теперь вы занимаетесь чем-то, что вовсе не беспристрастное представление данных. »
Я думаю, что такие разведочные работы являются обычным явлением, и часто на основе этой части анализа строятся гипотезы. Существует целый подход ( EDA ), посвященный этому процессу:
Джон Тьюки продвигал исследовательский анализ данных, чтобы побудить статистиков исследовать данные и, возможно, сформулировать гипотезы, которые могли бы привести к сбору новых данных и экспериментам
Похоже, что любой исследовательский процесс, выполняемый без предварительной гипотезы, склонен генерировать ложные гипотезы.
Обратите внимание, что описание EDA выше на самом деле говорит о new data collection and experiments
. Я понимаю, что после сбора новых данных целесообразно провести подтверждающий анализ данных (CDA). Тем не менее, я не думаю, что это различие проводится очень четко, и хотя разделение EDA и CDA было бы идеальным, безусловно, есть некоторые обстоятельства, в которых это невозможно. Я бы даже сказал, что строго придерживаться этого разделения редко, и большинство практиков вообще не поддерживают парадигму EDA.
Итак, мой вопрос: делает ли EDA (или какой-либо неформальный процесс изучения данных) вероятность того, что он попадет в заблуждение стрелка из Техаса?
Ответы:
Если не один воззрения роли ЭДЫ строго , как генерировать гипотезы, то ни Снайпер заблуждение не применяется. Однако очень важно, чтобы последующие подтверждающие исследования действительно были независимыми. Многие исследователи пытаются «примирить различия» с такими вещами, как объединенный анализ, метаанализ и байесовские методы. Это означает, что по крайней мере некоторые из доказательств, представленных в таком анализе, включают «круг вокруг случайных пулевых отверстий».
источник
Это рисует очень негативную точку зрения на исследовательский анализ данных. Хотя аргумент не является неправильным, он действительно говорит: «Что может пойти не так, если я неправильно использую очень важный инструмент?»
Принятие нескорректированных значений p из методов EDA приведет к значительно завышенной частоте ошибок типа I. Но я думаю, что Тьюки не был бы счастлив, если бы кто-то делал это. Смысл EDA не в том, чтобы делать окончательные выводы об отношениях в данных, а в том, чтобы искать потенциальные новые отношения в данных, чтобы их можно было отслеживать.
Выход из этого шага в более широком научном процессе существенно затрудняет науку, которая никогда не сможет найти новые интересные аспекты наших данных, кроме чисто логического вывода. Вы когда-нибудь пытались логически вывести, как чрезмерная экспрессия набора генов повлияет на выживание клетки? Подсказка: это не очень легко (одна из наших любимых шуток среди сотрудников биоинформатики на моей работе была, когда физик спросил: «Почему бы вам просто не смоделировать физические свойства различных взаимодействий генов? Это пространство конечных параметров».)
Лично я думаю, что путаница по этому поводу может привести к значительному замедлению научного прогресса. Я знаю слишком много нестатистических исследователей, которые утверждают, что они не хотят выполнять процедуры EDA на предварительных данных, потому что они «знают, что EDA может быть плохим».
В заключение, это абсолютно верно, что использование методов EDA и их применение в качестве подтверждающих методов анализа данных приведет к неверным результатам. Тем не менее, отсутствие надлежащего использования EDA может привести к почти полным результатам.
источник
Я бы умерил это утверждение и выразил его немного по-другому: выбор гипотезы для проверки на основе данных подрывает тест, если не использовать правильную нулевую гипотезу. Суть статьи Nature заключается в том, что аналитикам легко обмануть себя, игнорируя все многочисленные сравнения, которые они неявно проводят во время исследования.
Природа цитирует Эндрю Гельмана, но не упоминает его статью с Эриком Локеном только на эту тему. Выдержка:
Другая:
Сжато:
И еще один, акцент мой:
Короче говоря, это не значит, что EDA приводит к «ложной гипотезе»; это то, что проверка гипотезы с тем же набором данных, которая подтолкнула гипотезу, может привести к ложным выводам.
Если вы заинтересованы в преодолении этого препятствия, у Гельмана есть еще одна статья, в которой утверждается, что многие из этих проблем исчезают в байесовской структуре, а в статье с Локеном упоминается «репликация перед публикацией», как это было описано в первом разделе этой статьи .
источник
Почти по определению, да, конечно, EDA без CDA привлекает техасских стрелков.
источник
Просто чтобы добавить к уже и без того отличным ответам: есть промежуточная точка между полным CDA и простым принятием результатов EDA за чистую монету. Как только вы нашли возможную интересную особенность (или гипотезу), вы можете почувствовать ее надежность, выполнив перекрестную проверку (CV) или начальное моделирование. Если ваши результаты зависят только от нескольких ключевых наблюдений, тогда CV или Bootstrap покажут, что многие из сгибов (CV) или образцов Boostrap не воспроизводят наблюдаемую особенность.
Это не надежный метод, но это хорошая промежуточная проверка перед тем, как пойти на полный CDA (или намеренно выделять «набор проверки» из исходного пула данных).
источник
Наиболее строгим критерием выбора модели данных является степень, в которой аппроксимирует колмогоровскую сложность данных, то есть степень сжатия данных без потерь. Теоретически это может быть результатом одного только анализа данных.
См. « Причинная деконволюция по алгоритмическим генеративным моделям »
источник