Много раз я сталкивался с неофициальными предупреждениями против «отслеживания данных» (вот один забавный пример ), и я думаю, что у меня есть интуитивное представление о том, что это значит, и почему это может быть проблемой.
С другой стороны, «исследовательский анализ данных» представляется вполне респектабельной процедурой в статистике, по крайней мере, судя по тому факту, что книга с таким названием все еще благоговейно упоминается как классическая.
В своей работе я часто сталкиваюсь с тем, что мне кажется безудержным «отслеживанием данных», или, возможно, его лучше описать как «данные». пытку », хотя те, кто это делает, видят ту же самую деятельность как совершенно разумное и беспроблемное исследование ».
Вот типичный сценарий: проводится дорогостоящий эксперимент (без особого внимания к последующему анализу), первоначальные исследователи не могут легко различить «историю» в собранных данных, кого-то привлекают для применения некоторого «статистического волшебства», и кто , после нарезки и нарезки данных в разные стороны, наконец-то удается извлечь из них какую-нибудь публикуемую «историю».
Конечно, в итоговом отчете / статье обычно есть некоторая «проверка», показывающая, что статистический анализ находится на подъеме, но за этим откровенным отношением публикаций любой ценой у меня возникают сомнения.
К сожалению, мое ограниченное понимание того, что можно и чего нельзя делать при анализе данных, не позволяет мне выходить за рамки таких смутных сомнений, поэтому мой консервативный ответ - в основном игнорировать такие выводы.
Я надеюсь, что не только лучшее понимание различия между расследованием и слежкой / пытками, но также, что более важно, лучшее понимание принципов и методов обнаружения, когда эта черта была пересечена, позволит мне оценить такие результаты в способ, который может разумно объяснить менее чем оптимальную аналитическую процедуру и, таким образом, быть в состоянии выйти за рамки моего нынешнего довольно простого взгляда на общее недоверие.
РЕДАКТИРОВАТЬ: Спасибо всем за очень интересные комментарии и ответы. Судя по их содержанию, думаю, я недостаточно хорошо объяснил свой вопрос. Я надеюсь, что это обновление прояснит вопросы.
Мой вопрос здесь касается не столько того, что я должен делать, чтобы избежать пытки моих данных (хотя это вопрос, который меня также интересует), но скорее: как я должен расценивать (или оценивать) результаты, которые я знаю, что факт был получен такие "данные пытки".
Ситуация становится более интересной в тех (гораздо более редких) случаях, когда, кроме того, я имею возможность высказать мнение о таких «выводах» до того, как они будут представлены для публикации.
На данный момент самое большее, что я могу сделать, это сказать что-то вроде: «Я не знаю, насколько я могу доверять этим выводам, учитывая то, что я знаю о предположениях и процедурах, которые привели к их получению». Это слишком расплывчато, чтобы стоить даже говорить. Желание выйти за рамки такой неопределенности послужило мотивацией для моего поста.
Честно говоря, мои сомнения здесь основаны не только на кажущихся сомнительными статистических методах. Фактически, я рассматриваю последнее скорее как следствие более глубокой проблемы: сочетание кавалерского отношения к экспериментальному плану в сочетании с категорическим стремлением публиковать результаты в том виде, в каком они есть (т.е. без каких-либо дальнейших экспериментов). Конечно, всегда предусмотрены последующие проекты, но о них просто не может быть и речи , что из «холодильника, заполненного 100 000 образцов» не выйдет ни одного документа.
Статистика входит в картину только как средство достижения этой высшей цели. Единственное оправдание привязки к статистике (вторичной, как они есть во всем сценарии) заключается в том, что прямой вызов предположению "публикация любой ценой" просто бессмысленна.
Фактически, я могу думать только об одном эффективном ответе в таких ситуациях: предложить какой-то статистический тест (не требующий дополнительных экспериментов), который действительно проверяет качество анализа. Но у меня просто нет отбиваний в статистике за это. Моя надежда (наивная в ретроспективе) состояла в том, чтобы выяснить, что я могу изучить, что может позволить мне провести такие тесты ...
Когда я пишу это, до меня доходит, что, если он еще не существует, мир может использовать одну новую ветвь статистики, посвященную методам обнаружения и разоблачения «пыток данными». (Конечно, я не имею в виду увлечение метафорой «пытки»: проблема не в «пытке данных» как таковой, а в ложных «выводах», к которым она может привести.)
Ответы:
Существует различие, которое иногда не получает достаточного внимания, а именно: генерация гипотезы против проверки гипотез , или исследовательский анализ против проверки гипотез. Вам разрешают все грязные уловки в мире выдвинуть вашу идею / гипотезу. Но когда вы позже проверите это, вы должны безжалостно убить своих любимых.
Я биолог, работающий с данными с высокой пропускной способностью все время, и да, я делаю это "нарезка и нарезка" довольно часто. В большинстве случаев эксперимент не был тщательно продуман; или возможно те, кто запланировал это, не учитывали все возможные результаты. Или общее отношение при планировании было «давайте посмотрим, что там». В итоге мы получим дорогие, ценные и интересные сами наборы данных, которые я потом оборачиваюсь, чтобы придумать историю.
Но тогда это всего лишь история (возможное время сна). После того, как вы выбрали пару интересных точек зрения - и это ключевой момент - вы должны проверить это не только с независимыми наборами данных или независимыми выборками, но предпочтительно с независимым подходом , независимой экспериментальной системой.
Важность этой последней вещи - независимой экспериментальной установки, а не только независимого набора измерений или образцов - часто недооценивается. Однако, когда мы тестируем 30 000 переменных на предмет существенных различий, часто случается, что, хотя схожие (но разные) выборки из одной и той же когорты и проанализированные одним и тем же методом не отвергнут гипотезу, основанную на предыдущем наборе. Но затем мы переходим к другому типу эксперимента и другой когорте, и наши результаты оказываются результатом методологической предвзятости или ограничены в их применимости.
Вот почему нам часто нужны несколько работ нескольких независимых исследователей, чтобы действительно принять гипотезу или модель.
Поэтому я думаю, что пытать такие данные - это хорошо, если вы помните об этом различии и помните, что вы делаете, на какой стадии научного процесса вы находитесь. Вы можете использовать фазы Луны или переопределить 2 + 2, если у вас есть независимая проверка данных. Чтобы поставить это на картинке:
К сожалению, есть те, кто заказывает микроматрицу, чтобы округлить бумагу после нескольких экспериментов, когда история не появилась, в надежде, что анализ высокой пропускной способности что-то покажет. Или они смущены тем, что вся проверка гипотез против поколения вещей.
источник
Герман Фридман, мой любимый профессор в аспирантуре, говорил, что
Строгое избегание чего-либо, кроме самого строгого тестирования априорно определенных гипотез, сильно ограничивает вашу способность удивляться.
Я думаю, что главное в том, что мы честны в том, что делаем. Если мы находимся в очень исследовательском режиме, мы должны так сказать. С другой стороны, одна из известных мне профессоров сказала своему ученику изменить свои гипотезы, поскольку первоначальные не были признаны значимыми.
источник
Позвольте мне добавить несколько моментов:
Прежде всего, генерация гипотез является важной частью науки. И непредсказуемые (исследовательские / описательные) результаты могут быть опубликованы.
ИМХО проблема не в том, что исследование данных используется для набора данных, и только часть этих результатов публикуется. Проблемы
Наука и разработка методов являются итеративными процессами в гораздо более общем смысле, чем просто генерация гипотез - тестирование - генерация новых гипотез - тестирование ... ИМХО, это вопрос профессионального суждения, какое правильное поведение необходимо на каком этапе (см. Пример ниже).
Что я делаю:
Когда у меня есть возможность, я также показываю людям, как много различий, которые имеют значение (выполнимо в основном при более низком уровне той же проблемы, например, сравнивают независимые от пациента проверенные данные с внутренней эффективностью оценки процедур оптимизации гиперпараметров, таких как поиск по сетке для параметров SVM, «комбинированные модели», такие как PCA-LDA, и т. д. Не реально выполнимо для сбора данных, потому что до сих пор никто не дал мне денег, чтобы заработать истинная копия разумного размера исследования ...)
принята рукопись на arXiv: 1211.1323
Вот исследование, которое обнаруживает, что это слепое
пробование также часто бесполезно, например, J. Engel, J. Gerretzen, E. Szymańska, JJ Jansen, G. Downey, L. Blanchet, LMC Buydens: разрыв с тенденциями предварительной обработки ?, TrAC Trends in Analytical Chemistry, 2013, 50, 96-106. DOI: 10.1016 / j.trac.2013.04.015
(они опробовали большое количество комбинаций этапов предварительной обработки и обнаружили, что очень немногие приводят к лучшим моделям, чем вообще никакой предварительной обработки)
Подчеркните, что я не мучаю свои данные больше, чем необходимо:
пример :
В последующем документе, использующем те же данные, что и в примере, для (разных) разработок теории читается
Потому что между тем меня явно попросили (на конференции редактор журнала CILS) сравнить модели с предварительной обработкой PLS.
Возьмите с практической точки зрения: например, в исследовании астроцитомы, связанном выше, конечно, я все же определился с некоторыми моментами после просмотра данных (например, какой порог интенсивности соответствует измерениям, проведенным снаружи образца - которые затем были отброшены). Другие решения, которые я знаю, являются некритическими (линейная или квадратичная базовая линия: мой опыт работы с данными такого типа показывает, что это на самом деле мало что меняет - что также полностью согласуется с тем, что Джаспер Энгель обнаружил на разных данных аналогичного типа, поэтому Я бы не ожидал, что из-за выбора типа базовой линии путем анализа данных будет получен большой уклон (в статье приводится аргумент, почему это целесообразно).
Основываясь на проведенном нами исследовании, мы теперь можем сказать, что следует решать дальше и что следует изменить. И поскольку мы все еще находимся на сравнительно ранней стадии разработки метода (рассматривая образцы ex-vivo ), не стоит проходить всю «домашнюю работу», которая в конечном итоге потребуется, прежде чем метод можно будет использовать in-vivo . Например, на современном этапе оценки астроцитомы подтверждение повторной выборки является более разумным выбором, чем внешний набор тестов. Я по-прежнему подчеркиваю, что в какой-то момент потребуется действительно внешнее валидационное исследование, потому что некоторые рабочие характеристики могут быть измерены только таким способом (например, эффекты дрейфа инструментов / доказательства того, что мы можем их исправить). Но сейчас, пока мы еще играем с ex-vivoвыборки и решения других частей большой проблемы (в связанных документах: как обращаться с пограничными случаями), получение полезных знаний от надлежащего исследования по валидации ex-vivo слишком мало, чтобы стоить усилий (ИМХО: если только это было сделано для того, чтобы измерить смещение из-за углубления данных).
Однажды я прочитал аргумент о статистических стандартах и стандартах отчетности и о том, должно ли такое решение быть необходимым для журнала (не помню, какой именно), который убедил меня: высказанная идея заключалась в том, что редакторам не нужно пытаться согласовать и применять какой-то стандарт (который вызовет много бесполезных дискуссий), потому что:
источник
Иногда вещи, которые вы видите как «пытку данных», на самом деле не являются. Не всегда заранее ясно, что именно вы собираетесь делать с данными, чтобы дать то, что, как вы считаете, являются подлинными результатами эксперимента, пока вы его не увидите.
Например, с данными о времени реакции для решения задачи вы часто хотите отклонить моменты, которые не относятся к решению (то есть, когда они идут так быстро, они, очевидно, просто угадывают, а не принимают решение). Вы можете изобразить точность решения против RT, чтобы увидеть, где обычно происходит угадывание. Но пока вы не протестируете эту конкретную парадигму, у вас нет возможности узнать, где находятся отсечки (со временем, а не с точностью). Для некоторых наблюдателей такая процедура выглядит как пытка данных, но если она не имеет ничего общего с проверкой гипотез (вы не корректируете ее на основе проверок), то она не мучает данные.
Отслеживание данных во время эксперимента - это нормально, если все сделано правильно. Вероятно, неэтично вставлять свой эксперимент в черный ящик и проводить анализ только тогда, когда запланированное количество предметов уже выполнено. Иногда трудно сказать, что есть проблемы с экспериментом, пока вы не посмотрите на данные, и вы должны рассмотреть некоторые из них как можно скорее. Просмотр данных сильно опровергается, потому что это приравнивается к тому, чтобы увидеть, если p <0,05, и принять решение продолжить. Но существует множество критериев, по которым вы можете продолжить сбор данных, которые не наносят вреда вашей частоте ошибок.
Скажем, вы хотите убедиться, что ваша оценка отклонений находится в пределах известного вероятного диапазона. Небольшие выборки могут иметь довольно большие отклонения, поэтому вы собираете дополнительные данные, пока не узнаете, что выборка более репрезентативна. В следующем моделировании я ожидаю, что дисперсия в каждом условии будет 1. Я собираюсь сделать что-то действительно сумасшедшее и отобрать каждую группу независимо для 10 выборок, а затем добавить объекты, пока дисперсия не станет близкой к 1.
Итак, я только что помешался на выборке и приблизил мои отклонения к ожидаемым, и я до сих пор не сильно влияю на альфу (немного ниже 0,05). Еще несколько ограничений, таких как N, должны быть равны в каждой группе и не могут быть больше 30, а альфа почти верна на 0,05. Но как насчет SE? Что, если я вместо этого попытался сделать SE заданным значением? Это действительно очень интересная идея, потому что я в свою очередь устанавливаю ширину CI заранее (но не местоположение).
Опять же, альфа немного изменилась, хотя я позволил N перемещаться до 46 от первоначальных 10 на основе отслеживания данных. Что еще более важно, все SE находятся в узком диапазоне в каждом из экспериментов. Легко сделать небольшую альфа-корректировку, чтобы исправить это, если это вызывает беспокойство. Дело в том, что некоторое отслеживание данных не приносит никакого вреда и может даже принести пользу.
(Кстати, то, что я показываю, - это не волшебная палочка. На самом деле вы не уменьшаете количество предметов, которые делают это в долгосрочной перспективе, потому что мощность для симуляции варьирующегося N примерно такая же, как для симуляции среднего N )
Ничто из вышеперечисленного не противоречит недавней литературе по добавлению предметов после начала эксперимента. В этих исследованиях они смотрели на симуляции, когда вы добавляли субъектов после выполнения теста на гипотезу, чтобы получить значение p ниже. Это все еще плохо и может необычайно раздувать альфа. Кроме того, мне очень нравятся ответы января и Питера Флома. Я просто хотел отметить, что просмотр данных во время их сбора и даже изменение запланированного N во время сбора не обязательно являются плохими вещами.
источник
p
основанное правило остановки. Все критические замечания по поводу модификации N касаются выполнения этого после проверки гипотезы (должны быть включены и другие вещи). Существует вероятность того, что это вызывает искушение ... но я игнорирую это.Это действительно культурная проблема неуравновешенного мышления, когда смещение публикаций приводит к одобрению положительных результатов, а наш конкурентный характер требует, чтобы редакторы и исследователи представляли интересующие результаты, которые являются новыми или спорными, например, в смысле опровергать чужие результаты. В медицинских исследованиях достигнут значительный прогресс в решении этой проблемы путем обязательной регистрации испытаний и публикации результатов с записями о заброшенных исследованиях, которые также должны быть обнародованы. Я понимаю, что, поскольку публикация в журналах для безуспешных исследований может оказаться невозможной, есть планы сохранить общедоступную базу данных о них. Необычные результаты, которые не могут быть воспроизведены, не обязательно являются результатом проступка, как, например, с 50,
Использование различных методов также не обязательно является решением. Например, какой химик будет смешивать реагенты по-разному в разных условиях и ожидать, конечно же, одинаковых результатов?
источник