Я встречал эту цитату много раз:
Чтобы проконсультироваться со статистиком после завершения эксперимента, часто достаточно просто попросить его провести посмертное обследование. Возможно, он может сказать, от чего умер эксперимент. - Рональд Фишер (1938)
Мне кажется, это немного самонадеянно. Единственные примеры, которые я когда-либо нашел, описывающие, как эксперименты умирают без хорошего дизайна, связаны с отсутствием контроля или плохим контролем. Например, эксперименты, которые контролируют внесение удобрений, но не позволяют контролировать среду, необходимую для внесения. Может быть, это только я, но кажется, что быстрый просмотр раздела Википедии о принципах дизайна Фишера охватил бы большинство основ.
Как статистик, как часто вы видите дизайн экспериментальных проблем с данными? Всегда ли они связаны с теми немногими факторами, которые упоминает Фишер, или же существуют другие серьезные подводные камни, на которые должны обратить внимание наши статистически не подготовленные ученые?
источник
Ответы:
Я считаю, что то, что имел в виду Фишер в своей знаменитой цитате, выходит за рамки высказывания «Мы сделаем полный факторный дизайн для нашего исследования» или другого подхода к дизайну. Консультирование статистика при планировании эксперимента означает умное осмысление каждого аспекта проблемы, включая цель исследования, какие переменные имеют значение, как их собирать, управление данными, подводные камни, промежуточная оценка хода эксперимента и многое другое. Больше. Часто я считаю, что важно увидеть каждый аспект предлагаемого эксперимента, чтобы понять, в чем заключаются трудности.
Мой опыт в основном из медицинских приложений. Некоторые из проблем, с которыми я столкнулся, которые можно было бы предотвратить, предварительно посоветовавшись со статистиком:
Часто проблемы с исследованием уходят еще дальше, к первоначальной концепции исследования:
Пока что это в основном звучит так, как будто страдает статистик и, возможно, страдает научная целостность, когда ИП пытается делать выводы, не подкрепленные данными (всегда забавное обсуждение). Но экспериментальная команда также страдает, потому что они выполняют ненужную дополнительную работу (хотя и не выполняют необходимой работы) во время экспериментальной фазы и должны тратить гораздо больше времени на обсуждение со своей статистикой после свершившегося факта, потому что они не получали своего совета раньше. И, конечно, финальная статья будет хуже, будет иметь меньше выводов (и больше «домыслов») и, скорее всего, не попадет в тот высокоэффективный журнал, который хотел ИП.
источник
Два слова: размер выборки ... Анализ мощности является обязательным. Включив в свою команду компетентного статистика с самого начала, вы, скорее всего, избавите себя от большого разочарования, когда будете писать разделы результатов и обсуждения своей рукописи или отчета.
Для главного исследователя слишком распространено собирать данные до консультации со статистиком в ожидании «прогнозной модели» или «причинно-следственной связи» из выборки из менее чем 30 субъектов. Если бы ПИ проконсультировался со статистиком до сбора данных, он мог бы проинформировать ПИ после соответствующего анализа, чтобы собрать больше данных / субъектов или реструктурировать цели своего плана / проекта анализа.
источник
Я полагаю, это зависит от того, насколько строго вы интерпретируете слово «дизайн». Иногда это означает полностью рандомизированные и рандомизированные блоки и т. Д. Я не думаю, что видел исследование, которое умерло от этого. Кроме того, как уже упоминали другие, я подозреваю, что «умер» слишком сильно, но это зависит от того, как вы интерпретируете термин. Конечно, я видел исследования, которые были «несущественными» (и которые впоследствии исследователи не пытались опубликовать); Исходя из предположения, что эти исследования могли бы быть «значительными», если бы проводились иначе (в соответствии с очевидным советом, который я дал бы), и, следовательно, были опубликованы, они могут квалифицироваться как «умершие». В свете этой концепции проблема питания, поднятая как @RobHall, так и @MattReichenbach, довольно проста, но это больше, чем размер выборки, и они могут подпадать под более слабую концепцию «дизайна». Вот пара примеров:
Не собирая / не записывая / не выбрасывая информацию,
я работала над исследованием, в котором исследователи интересовались, связана ли конкретная черта с раком. Мы получили мышей из двух линий (т.е. генетических линий, мышей разводили для определенных свойств), где одна линия, как ожидали, имела больше признаков, чем другая. Тем не менее, эта черта на самом деле не была измерена, хотя это могло быть. Эта ситуация аналогична дихотомии или биннингу непрерывной переменной, которая уменьшает мощность. Однако даже если бы результаты были «значительными», они были бы менее информативными, чем если бы мы знали величину признака для каждой мыши.
Другой случай в этом же заголовке - не думать и не собирать очевидные ковариаты.
Плохой дизайн анкеты
Я недавно работал над исследованием, в котором опрос удовлетворенности пациентов проводился при двух условиях. Тем не менее, ни один из пунктов не был оценен в обратном порядке. Оказалось, что большинство пациентов просто пошли вниз по списку и отметили все 5 ( полностью согласны ), возможно, даже не читая пункты. Были некоторые другие проблемы, но это довольно очевидно. Как ни странно, сотрудник, ответственный за проведение исследования, сказал мне, что ее посещение явно побудило ее не проверять исследование сначала у статистика, хотя мы свободны и удобно доступны для таких консультаций.
источник
Я видел такую проблему в опросных и психологических экспериментах.
В одном случае весь эксперимент пришлось записать в учебный опыт. Были проблемы на разных уровнях, которые приводили к путанице результатов, но результаты, которые, казалось, оказывали некоторую поддержку гипотезе. В конце концов, я смог помочь спланировать более строгий эксперимент, который, по сути, имел достаточно сил, чтобы отвергнуть гипотезу.
В другом случае мне был передан опрос, который уже был разработан и выполнен, и было несколько проблем, в результате которых пострадали несколько областей интересов. Например, в одной ключевой области они спросили, сколько раз клиенты отворачивались от события из-за его переполненности, когда они прибыли. Проблема в том, что по этому вопросу нет временного диапазона, поэтому вы не можете определить разницу между тем, кто пытался посетить 4 раза и был отвергнут 4 раза, и тем, кто пытался посетить 40 раз и только 4 раза отказались. ,
Я не обученный, столичный статистик, но если бы они пришли ко мне заранее, я бы смог помочь им решить эти проблемы и добиться лучших результатов. В первом случае это все равно было бы разочаровывающим: «Извините, ваша гипотеза кажется крайне маловероятной», но это могло бы спасти их во втором эксперименте. Во втором случае это дало бы им ответы на некоторые важные вопросы и сделало бы результаты более четкими. (Другая проблема, с которой они столкнулись, заключается в том, что они опрашивали несколько мест с течением времени, и, таким образом, по крайней мере, некоторые люди были опрошены несколько раз, без вопросов типа «Вы проходили этот опрос в другом месте?»)
Возможно, не статистические проблемы как таковые, но в обоих этих случаях умные, хорошо образованные эксперты в области создали инструменты с ошибками, и в результате был получен один мертвый эксперимент и один эксперимент с ампутированными конечностями.
источник