Подводные камни в экспериментальном дизайне: избегание мертвых экспериментов

27

Я встречал эту цитату много раз:

Чтобы проконсультироваться со статистиком после завершения эксперимента, часто достаточно просто попросить его провести посмертное обследование. Возможно, он может сказать, от чего умер эксперимент. - Рональд Фишер (1938)

Мне кажется, это немного самонадеянно. Единственные примеры, которые я когда-либо нашел, описывающие, как эксперименты умирают без хорошего дизайна, связаны с отсутствием контроля или плохим контролем. Например, эксперименты, которые контролируют внесение удобрений, но не позволяют контролировать среду, необходимую для внесения. Может быть, это только я, но кажется, что быстрый просмотр раздела Википедии о принципах дизайна Фишера охватил бы большинство основ.

Как статистик, как часто вы видите дизайн экспериментальных проблем с данными? Всегда ли они связаны с теми немногими факторами, которые упоминает Фишер, или же существуют другие серьезные подводные камни, на которые должны обратить внимание наши статистически не подготовленные ученые?

naught101
источник
4
Как часто: очень часто. Называть эксперимент «мертвым», как правило, слишком далеко, но я вижу, что многие эксперименты, возможно, были бы намного лучше, если бы в проекте были лишь небольшие изменения.
mark999
3
Я видел несколько. Хотя это может быть самонадеянными в настоящее время , помните , что , когда Фишер сказал , что это, вы можете не просто посмотреть википедию. Скорость может быть намного выше в первые дни.
Glen_b
4
Приятно, что вы подняли этот вопрос. Мне также любопытно, что, возможно, в первый раз я увидел четырехкратный квалификатор: «Мне это кажется, возможно, немного самонадеянным». :-)
rolando2
1
@ rolando2: Хех, ну это Фишер. Он заработал все эти квалификации: D
naught101
5
Я видел - буквально - многие тысячи наборов данных в моей карьере (и практически ни один из них не был собран в соответствии с дизайном, рассмотренным любым статистиком). Большинство из них были собраны для официальных целей, таких как удовлетворение нормативных требований. Я не могу вспомнить ни одного , у которого не было проблем, связанных с дизайном (хотя иногда они были незначительными). Это не означает, что наборы данных были бесполезны или «мертвы»: но почти во всех случаях моей задачей было (продолжить медицинскую аналогию) сначала реанимировать набор данных, а затем применить его по назначению, если это вообще возможно.
whuber

Ответы:

14

Я считаю, что то, что имел в виду Фишер в своей знаменитой цитате, выходит за рамки высказывания «Мы сделаем полный факторный дизайн для нашего исследования» или другого подхода к дизайну. Консультирование статистика при планировании эксперимента означает умное осмысление каждого аспекта проблемы, включая цель исследования, какие переменные имеют значение, как их собирать, управление данными, подводные камни, промежуточная оценка хода эксперимента и многое другое. Больше. Часто я считаю, что важно увидеть каждый аспект предлагаемого эксперимента, чтобы понять, в чем заключаются трудности.

Мой опыт в основном из медицинских приложений. Некоторые из проблем, с которыми я столкнулся, которые можно было бы предотвратить, предварительно посоветовавшись со статистиком:

  • Недостаточный размер выборки, конечно, номер один в этом списке. Зачастую данные предыдущих исследований были бы доступны, и было бы легко дать разумную оценку необходимого размера выборки. В этих случаях единственным выходом часто является чисто описательный анализ данных и обещание дальнейших исследований в статье (отказ от публикации обычно не подходит после того, как врачи потратили драгоценное время).
  • Выполнение экспериментов оставлено для удобства и случайности вместо дизайна. В примере, над которым я сейчас работаю, измерения собраны с течением времени. Время измерения, частота измерения и конец периода мониторинга сильно различаются у разных людей. Увеличение количества измерений на человека и фиксация дат измерения и конца периода мониторинга было бы довольно небольшой дополнительной работой (в этом случае) и было бы очень полезно для исследования.
  • Плохой контроль факторов неприятности, которые можно было легко контролировать. Например, измерения иногда выполнялись в день сбора образцов, а иногда и позже, оставляя возможность того, что образец ухудшился.
  • Плохое управление данными, в том числе мой любимый «Я округлил данные, прежде чем поместить их в компьютер, потому что машина неточна в своих измерениях». Зачастую релевантные данные просто не собираются, и по факту получить их невозможно.

Часто проблемы с исследованием уходят еще дальше, к первоначальной концепции исследования:

  • Данные иногда собираются без четкой цели и только предположения, что они будут как-то полезны. Выработка гипотез и «значимых результатов» оставлена ​​статистику.
  • И наоборот: данные собираются вместе с целью доказать конкретную точку зрения, которую ИП имеет в своей голове, независимо от данных и того, что на самом деле может быть доказано с их помощью. На этот раз статистик должен просто поставить свой отпечаток значимости на заранее написанные выводы без корректировок выводов перед лицом данных.

Пока что это в основном звучит так, как будто страдает статистик и, возможно, страдает научная целостность, когда ИП пытается делать выводы, не подкрепленные данными (всегда забавное обсуждение). Но экспериментальная команда также страдает, потому что они выполняют ненужную дополнительную работу (хотя и не выполняют необходимой работы) во время экспериментальной фазы и должны тратить гораздо больше времени на обсуждение со своей статистикой после свершившегося факта, потому что они не получали своего совета раньше. И, конечно, финальная статья будет хуже, будет иметь меньше выводов (и больше «домыслов») и, скорее всего, не попадет в тот высокоэффективный журнал, который хотел ИП.

Роб Холл
источник
Что касается второго из вашего второго набора пунктов, я думаю, что нормальным обоснованием исследования является сбор данных с целью доказательства конкретных моментов.
Роберт Джонс
1
Вы, конечно, совершенно правы. Я был слишком коротким там. То, что я хотел упомянуть, - это сценарий, когда ПИ, который очень полон решимости доказать свою точку зрения, и данные низкого качества, которые не могут доказать эту точку (часто из-за фундаментальных проблем проектирования), собираются вместе.
Роб Холл
12

Два слова: размер выборки ... Анализ мощности является обязательным. Включив в свою команду компетентного статистика с самого начала, вы, скорее всего, избавите себя от большого разочарования, когда будете писать разделы результатов и обсуждения своей рукописи или отчета.

Для главного исследователя слишком распространено собирать данные до консультации со статистиком в ожидании «прогнозной модели» или «причинно-следственной связи» из выборки из менее чем 30 субъектов. Если бы ПИ проконсультировался со статистиком до сбора данных, он мог бы проинформировать ПИ после соответствующего анализа, чтобы собрать больше данных / субъектов или реструктурировать цели своего плана / проекта анализа.

Мэтт Райхенбах
источник
1
Я не согласен с «Анализ мощности является обязательным». Я думаю, что многие люди преувеличивают важность анализа мощности.
mark999
3
@ mark999: Может быть, но это не умаляет важности проведения некоторого анализа мощности перед проведением эксперимента, что, как я понимаю, является точкой Мэтта.
Scortchi - Восстановить Монику
3
@ mark999: Они могут оказаться полезными, конечно. Но при каких обстоятельствах вы бы не рекомендовали выполнять какой-либо анализ мощности (включая оценку ожидаемой ширины доверительных интервалов) перед проведением эксперимента? Я могу думать только о (1) экспериментальном исследовании, в котором вы заинтересованы только в прохождении протокола и грубой оценке ошибки, и (2) эксперименте, для которого вы по какой-то причине не можете выбрать размер выборки, делая анализ мощности избыточен.
Scortchi - Восстановить Монику
2
@ mark999: я думаю, что мы делаем. Для вашего случая (B) я бы предложил экспериментальное исследование -> анализ мощности -> эксперимент, чтобы проверить гипотезы или оценить величину эффекта как безупречный план.
Scortchi - Восстановить Монику
3
Даже если у вас фиксированный размер выборки, я не вижу смысла зарывать голову в песок и избегать анализа мощности (разумные ответы на ограниченность ресурсов и невежество в стороне).
Энди W
11

Я полагаю, это зависит от того, насколько строго вы интерпретируете слово «дизайн». Иногда это означает полностью рандомизированные и рандомизированные блоки и т. Д. Я не думаю, что видел исследование, которое умерло от этого. Кроме того, как уже упоминали другие, я подозреваю, что «умер» слишком сильно, но это зависит от того, как вы интерпретируете термин. Конечно, я видел исследования, которые были «несущественными» (и которые впоследствии исследователи не пытались опубликовать); Исходя из предположения, что эти исследования могли бы быть «значительными», если бы проводились иначе (в соответствии с очевидным советом, который я дал бы), и, следовательно, были опубликованы, они могут квалифицироваться как «умершие». В свете этой концепции проблема питания, поднятая как @RobHall, так и @MattReichenbach, довольно проста, но это больше, чем размер выборки, и они могут подпадать под более слабую концепцию «дизайна». Вот пара примеров:

  • Не собирая / не записывая / не выбрасывая информацию,
    я работала над исследованием, в котором исследователи интересовались, связана ли конкретная черта с раком. Мы получили мышей из двух линий (т.е. генетических линий, мышей разводили для определенных свойств), где одна линия, как ожидали, имела больше признаков, чем другая. Тем не менее, эта черта на самом деле не была измерена, хотя это могло быть. Эта ситуация аналогична дихотомии или биннингу непрерывной переменной, которая уменьшает мощность. Однако даже если бы результаты были «значительными», они были бы менее информативными, чем если бы мы знали величину признака для каждой мыши.

    Другой случай в этом же заголовке - не думать и не собирать очевидные ковариаты.

  • Плохой дизайн анкеты
    Я недавно работал над исследованием, в котором опрос удовлетворенности пациентов проводился при двух условиях. Тем не менее, ни один из пунктов не был оценен в обратном порядке. Оказалось, что большинство пациентов просто пошли вниз по списку и отметили все 5 ( полностью согласны ), возможно, даже не читая пункты. Были некоторые другие проблемы, но это довольно очевидно. Как ни странно, сотрудник, ответственный за проведение исследования, сказал мне, что ее посещение явно побудило ее не проверять исследование сначала у статистика, хотя мы свободны и удобно доступны для таких консультаций.

gung - Восстановить Монику
источник
Вау ... с первым, что же они измеряют? это кажется немного очевидным. Или им дали заранее заверения, что черты были разными в разных линиях? Второй пример - это круто, своего рода рандомизация, о которой большинство людей не подумают.
naught101
5
Это было только тестирование 1 штамма против другого. Рассматриваемая черта действительно имеет тенденцию быть выше для одной из линий, но есть некоторые совпадения - распределения не полностью разделены.
gung - Восстановить Монику
У меня был подобный опыт, указанный в пункте 1: было установлено микрофлюидное устройство для распознавания определенного типа клеток. Смесь ячеек, которые должны быть распознаны, и ячеек контроля были введены, и был получен видеопоток + поток сигнала, который будет использоваться для распознавания. К сожалению, хотя видеопоток можно было использовать в качестве эталона для определения того, была ли ячейка в детекторе в данный момент, невозможно было определить тип ячейки на самом деле, поэтому невозможно определить, был ли сигнал действительно положительным или нет. ложный отрицательный или нет сигнала был истинным отрицательным или ложным положительным ...
cbeleites поддерживает Монику
8

Я видел такую ​​проблему в опросных и психологических экспериментах.

В одном случае весь эксперимент пришлось записать в учебный опыт. Были проблемы на разных уровнях, которые приводили к путанице результатов, но результаты, которые, казалось, оказывали некоторую поддержку гипотезе. В конце концов, я смог помочь спланировать более строгий эксперимент, который, по сути, имел достаточно сил, чтобы отвергнуть гипотезу.

В другом случае мне был передан опрос, который уже был разработан и выполнен, и было несколько проблем, в результате которых пострадали несколько областей интересов. Например, в одной ключевой области они спросили, сколько раз клиенты отворачивались от события из-за его переполненности, когда они прибыли. Проблема в том, что по этому вопросу нет временного диапазона, поэтому вы не можете определить разницу между тем, кто пытался посетить 4 раза и был отвергнут 4 раза, и тем, кто пытался посетить 40 раз и только 4 раза отказались. ,

Я не обученный, столичный статистик, но если бы они пришли ко мне заранее, я бы смог помочь им решить эти проблемы и добиться лучших результатов. В первом случае это все равно было бы разочаровывающим: «Извините, ваша гипотеза кажется крайне маловероятной», но это могло бы спасти их во втором эксперименте. Во втором случае это дало бы им ответы на некоторые важные вопросы и сделало бы результаты более четкими. (Другая проблема, с которой они столкнулись, заключается в том, что они опрашивали несколько мест с течением времени, и, таким образом, по крайней мере, некоторые люди были опрошены несколько раз, без вопросов типа «Вы проходили этот опрос в другом месте?»)

Возможно, не статистические проблемы как таковые, но в обоих этих случаях умные, хорошо образованные эксперты в области создали инструменты с ошибками, и в результате был получен один мертвый эксперимент и один эксперимент с ампутированными конечностями.

Wayne
источник