Ошибка стрелка из Техаса в анализе поисковых данных

23

Я читал эту статью в Природе, в которой некоторые ошибки объясняются в контексте анализа данных. Я заметил, что ошибки техасского снайпера было особенно трудно избежать:

Когнитивная ловушка, которая ожидает во время анализа данных, проиллюстрирована басней о техасском снайпере: неумелый меткий стрелок, который стреляет случайным образом из пуль сбоку сарая, рисует цель вокруг самого большого скопления пулевых отверстий и гордо указывает на его успех.

Его яблочко явно смешно - но заблуждение не столь очевидно для игроков, которые верят в «горячую руку», когда у них есть серия побед, или для людей, которые видят сверхъестественное значение, когда розыгрыш лотереи выпадает из всех нечетных чисел.

И это не всегда очевидно для исследователей. «Вы просто получаете некоторую поддержку от данных, а затем думаете, что это путь, по которому надо идти», - говорит Пашлер. «Вы не понимаете, что у вас было 27 различных вариантов, и вы выбрали тот, который дал вам наиболее приятные или интересные результаты, и теперь вы занимаетесь чем-то, что вовсе не беспристрастное представление данных. »

Я думаю, что такие разведочные работы являются обычным явлением, и часто на основе этой части анализа строятся гипотезы. Существует целый подход ( EDA ), посвященный этому процессу:

Джон Тьюки продвигал исследовательский анализ данных, чтобы побудить статистиков исследовать данные и, возможно, сформулировать гипотезы, которые могли бы привести к сбору новых данных и экспериментам

Похоже, что любой исследовательский процесс, выполняемый без предварительной гипотезы, склонен генерировать ложные гипотезы.

Обратите внимание, что описание EDA выше на самом деле говорит о new data collection and experiments. Я понимаю, что после сбора новых данных целесообразно провести подтверждающий анализ данных (CDA). Тем не менее, я не думаю, что это различие проводится очень четко, и хотя разделение EDA и CDA было бы идеальным, безусловно, есть некоторые обстоятельства, в которых это невозможно. Я бы даже сказал, что строго придерживаться этого разделения редко, и большинство практиков вообще не поддерживают парадигму EDA.

Итак, мой вопрос: делает ли EDA (или какой-либо неформальный процесс изучения данных) вероятность того, что он попадет в заблуждение стрелка из Техаса?

Роберт Смит
источник
3
Я не знаю точно, что вы подразумеваете под «ложной гипотезой». Смысл исследовательского анализа данных заключается в том, чтобы смотреть на данные и быть открытыми для различных моделей, включая шаблоны, которые вы не ожидали. Не меньше и не намного больше. Ничто в исследовательском анализе данных не гарантирует хороших идей, и ничто не исключает и не позволяет вам обойтись без критического мышления или связи того, что вы делаете, с основной наукой (в широком смысле). Таким образом, здесь есть некоторый риск критиковать EDA за вещи, которые никто не испытывал, отрицая. или никто не поддерживает.
Ник Кокс
3
Что труднее всего изучать и преподавать в EDA, так это то, чем должны помочь тесты значимости (в самых оптимистичных отчетах): привыкнуть не переоценивать детали в данных, которые не настолько важны, чтобы заслуживать внимания , Я бы сказал, что многие учетные записи EDA недостаточно настойчиво выдвигают идею, что для того, чтобы шаблон воспринимался всерьез, он должен быть идентифицирован в разных наборах данных, но это игнорирование распространено в статистической науке.
Ник Кокс
1
Спасибо. Проблема в том, что генерация множества гипотез и проверка их в одном наборе данных действительно опасна, поскольку вы, вероятно, подтвердите одну из них, даже если она неверна. Как описывает Creosote, потребуется корректировка значений p. К сожалению, я никогда не видел, чтобы это было сделано на практике.
Роберт Смит
2
Изучая (французский) EDA в начале 1980-х годов, у меня сложилось впечатление, что на самом деле было намного проще склонить ваш анализ к намеченным выводам, чем с более сильной статистической структурой ...
Сиань

Ответы:

12

Если не один воззрения роли ЭДЫ строго , как генерировать гипотезы, то ни Снайпер заблуждение не применяется. Однако очень важно, чтобы последующие подтверждающие исследования действительно были независимыми. Многие исследователи пытаются «примирить различия» с такими вещами, как объединенный анализ, метаанализ и байесовские методы. Это означает, что по крайней мере некоторые из доказательств, представленных в таком анализе, включают «круг вокруг случайных пулевых отверстий».

Adamo
источник
5
В точку. Проблема с таким большим количеством исследовательского анализа данных состоит в том, что один и тот же набор используется как для обучения (для определения места попадания пуль), так и для испытания (для рисования круга вокруг них).
Майкл К
11

Это рисует очень негативную точку зрения на исследовательский анализ данных. Хотя аргумент не является неправильным, он действительно говорит: «Что может пойти не так, если я неправильно использую очень важный инструмент?»

Принятие нескорректированных значений p из методов EDA приведет к значительно завышенной частоте ошибок типа I. Но я думаю, что Тьюки не был бы счастлив, если бы кто-то делал это. Смысл EDA не в том, чтобы делать окончательные выводы об отношениях в данных, а в том, чтобы искать потенциальные новые отношения в данных, чтобы их можно было отслеживать.

Выход из этого шага в более широком научном процессе существенно затрудняет науку, которая никогда не сможет найти новые интересные аспекты наших данных, кроме чисто логического вывода. Вы когда-нибудь пытались логически вывести, как чрезмерная экспрессия набора генов повлияет на выживание клетки? Подсказка: это не очень легко (одна из наших любимых шуток среди сотрудников биоинформатики на моей работе была, когда физик спросил: «Почему бы вам просто не смоделировать физические свойства различных взаимодействий генов? Это пространство конечных параметров».)

Лично я думаю, что путаница по этому поводу может привести к значительному замедлению научного прогресса. Я знаю слишком много нестатистических исследователей, которые утверждают, что они не хотят выполнять процедуры EDA на предварительных данных, потому что они «знают, что EDA может быть плохим».

В заключение, это абсолютно верно, что использование методов EDA и их применение в качестве подтверждающих методов анализа данных приведет к неверным результатам. Тем не менее, отсутствие надлежащего использования EDA может привести к почти полным результатам.

Клифф AB
источник
Спасибо. Я бы не стал слишком беспокоиться о том, чтобы несколько человек занимались каким-то исследовательским анализом. Я думаю, что верно обратное; многие люди выполняют эту исследовательскую работу, но, вероятно, не предприняли надлежащих мер предосторожности для предотвращения ошибок типа I, как вы описали. Тем не менее, интересно, что вы знаете людей, которые имеют негативное мнение о EDA. Если они не хотят делать это в предварительных данных, то когда они чувствуют себя комфортно, работая на EDA (или подобной EDA) работе?
Роберт Смит
Мой опыт показывает, что нестатистические исследователи привыкли слышать, что «множественные сравнения проблематичны», и поэтому, когда они приходят ко мне с данными, они стремятся сказать, что хотят избежать многократных сравнений, даже с предварительными данными. Конечно, более полное понимание проблемы может заключаться в том, что вы хотите избежать множественных сравнений в исследовании CDA.
Клифф AB
Я понимаю. Это имеет больше смысла.
Роберт Смит
5

Похоже, что любой исследовательский процесс, выполняемый без предварительной гипотезы, склонен генерировать ложные гипотезы.

Я бы умерил это утверждение и выразил его немного по-другому: выбор гипотезы для проверки на основе данных подрывает тест, если не использовать правильную нулевую гипотезу. Суть статьи Nature заключается в том, что аналитикам легко обмануть себя, игнорируя все многочисленные сравнения, которые они неявно проводят во время исследования.

Природа цитирует Эндрю Гельмана, но не упоминает его статью с Эриком Локеном только на эту тему. Выдержка:

Когда критика множественных сравнений была высказана в отношении некоторых статей, которые мы обсуждаем здесь, исследователи никогда не отвечают, что они заранее выбрали все детали своей обработки данных и анализа данных; скорее они утверждают, что выбрали только один анализ для конкретных данных, которые они видели . Интуитивно понятная эта защита, она не решает фундаментальную частую проблему множественных сравнений.

Другая:

Дело не в том, что исследователи провели сотни различных сравнений и выбрали те, которые были статистически значимыми. Скорее, они начинают с несколько сформированного представления о том, какое сравнение следует выполнить, и они уточняют эту идею в свете данных. Они увидели узор красного и розового цветов и соединили цвета.

Сжато:

Существует однозначное сопоставление научных и статистических гипотез.

И еще один, акцент мой:

Во всех случаях, которые мы обсуждали, опубликованный анализ имеет историю, которая согласуется с научными гипотезами, которые мотивировали работу, но другие шаблоны данных (которые, учитывая размеры выборки, могли легко возникнуть случайно), естественно, привели бы к анализ различных данных (например, сосредоточение внимания на основных эффектах, а не на взаимодействиях, или другой выбор подмножеств данных для сравнения), которые в равной степени могли бы использоваться для поддержки гипотез исследования. Результат остается, как мы писали в другом месте, своего рода машиной для создания и публикации случайных шаблонов.

Короче говоря, это не значит, что EDA приводит к «ложной гипотезе»; это то, что проверка гипотезы с тем же набором данных, которая подтолкнула гипотезу, может привести к ложным выводам.

Если вы заинтересованы в преодолении этого препятствия, у Гельмана есть еще одна статья, в которой утверждается, что многие из этих проблем исчезают в байесовской структуре, а в статье с Локеном упоминается «репликация перед публикацией», как это было описано в первом разделе этой статьи .

Шон Пасха
источник
Спасибо. Очень интересно. Я посмотрю на статью Гельмана о множественных сравнениях.
Роберт Смит
3

Почти по определению, да, конечно, EDA без CDA привлекает техасских стрелков.

пп

креозот
источник
Спасибо. Да, исправление будет необходимо. Я не думаю, что принимать это во внимание очень распространено.
Роберт Смит
3

Просто чтобы добавить к уже и без того отличным ответам: есть промежуточная точка между полным CDA и простым принятием результатов EDA за чистую монету. Как только вы нашли возможную интересную особенность (или гипотезу), вы можете почувствовать ее надежность, выполнив перекрестную проверку (CV) или начальное моделирование. Если ваши результаты зависят только от нескольких ключевых наблюдений, тогда CV или Bootstrap покажут, что многие из сгибов (CV) или образцов Boostrap не воспроизводят наблюдаемую особенность.

Это не надежный метод, но это хорошая промежуточная проверка перед тем, как пойти на полный CDA (или намеренно выделять «набор проверки» из исходного пула данных).


источник
0

Наиболее строгим критерием выбора модели данных является степень, в которой аппроксимирует колмогоровскую сложность данных, то есть степень сжатия данных без потерь. Теоретически это может быть результатом одного только анализа данных.

См. « Причинная деконволюция по алгоритмическим генеративным моделям »

Джеймс Бауэри
источник