Последовательная проверка гипотез в фундаментальной науке

16

Я фармаколог и, по моему опыту, почти во всех работах по базовым биомедицинским исследованиям используется t-критерий Стьюдента (либо для вывода, либо для соответствия ожиданиям ...). Пару лет назад мне стало известно, что t-тест Стьюдента - не самый эффективный тест, который можно использовать: последовательные тесты дают гораздо большую мощность для любого размера выборки или гораздо меньший размер выборки в среднем для эквивалентной мощности.

Последовательные процедуры различной сложности используются в клинических исследованиях, но я никогда не видел ни одного из них, использованных в публикации по основным биомедицинским исследованиям. Я отмечаю, что они также отсутствуют в учебниках по статистике начального уровня, которые, скорее всего, увидят большинство фундаменталистов.

Мой вопрос в три раза:

  1. Учитывая очень существенное преимущество в эффективности последовательных испытаний, почему они не используются более широко?
  2. Есть ли недостаток, связанный с использованием последовательных методов, который будет означать, что их использование статистиками не рекомендуется?
  3. Обучают ли студентов по статистике последовательным процедурам тестирования?
Майкл Лью
источник
3
Просто чтобы быть уверенным, вы говорите о ST, обнаруженном в клинических испытаниях, например, en.wikipedia.org/wiki/Sequential_analysis ?
ЧЛ
Да. Существует довольно много вариантов последовательного тестирования, включая последовательные t-тесты, но ни один не используется в фундаментальных исследованиях. Я не вижу никаких препятствий для их использования.
Майкл Лью
(+1) Просто наткнулся на последовательное тестирование и задавал себе те же вопросы.
Штеффен

Ответы:

5

Я не знаю много последовательных тестов и их применения за пределами промежуточного анализа (Jennison and Turnbull, 2000) и компьютеризированного адаптивного тестирования (van der Linden and Glas, 2010). Единственное исключение - в некоторых исследованиях МРТ, которые связаны с большими затратами и трудностями при зачислении субъектов. По сути, в этом случае последовательное тестирование в первую очередь направлено на прекращение эксперимента раньше. Итак, я не удивлен, что эти очень индивидуальные подходы не преподаются в обычных статистических классах.

Последовательные тесты не обходятся без подводных камней, хотя (ошибки типа I и II должны быть указаны заранее, выбор правила остановки и многократный просмотр результатов должны быть обоснованы, p-значения не распределены равномерно под нулем, как в фиксированной образец дизайна и т. д.). В большинстве проектов мы работаем с предварительно заданными экспериментальными установками или проводились предварительные исследования мощности, чтобы оптимизировать какой-то критерий экономической эффективности, и в этом случае применяются стандартные процедуры тестирования.

Однако мне показалась очень интересной следующая статья Майка Диркеса о дизайне фиксированных и открытых образцов: Заявка на последовательные планы экспериментов .

хл
источник
Базовые биомедицинские исследователи все время проводят промежуточные анализы, они просто не объявляют их, потому что они даже не знают, что это важно! Я опросил исследователей на национальном конгрессе и обнаружил, что более 50% не знали, что контроль частоты ошибок из t-критерия Стьюдента зависит от заранее определенного фиксированного размера выборки. Вы можете увидеть доказательства этого в иногда беспорядочно меняющихся размерах выборки.
Майкл Лью
Некоторые из недостатков, вытекающих из сложностей последовательных проектов, связаны именно с дизайном анализа, а не с его реализацией. Возможно, мы могли бы иметь набор готовых конструкций для небольших экспериментов.
Майкл Лью
@Michael О "поддельных" промежуточных анализах (глядя на p-значения, в то время как исследование все еще находится в стадии развития): похоже, что это неправильное использование статистики, не более того.
ЧЛ
@Chi На одном уровне, да, необъявленные и нескорректированные промежуточные анализы неуместны (но это делается в невежестве, невежестве, которое, я считаю, указывает на недостатки в методах обучения статистике для основных биомедицинских исследователей ...). Однако если мы рассмотрим это на мета-уровне, то можно найти некоторые частичные обоснования. Во многих экспериментах используются такие маленькие выборки, что увеличение частоты ложноположительных ошибок может быть разумным компромиссом для большей мощности. Конвенция исключает заявленный уровень альфа выше 0,05.
Майкл Лью
Я отмечаю в этом контексте, что основные исследователи биомедицины не работают исключительно в подходе Неймана-Пирсона, даже если утверждения, что «результаты, где P <0,05 считались значимыми», могут предполагать иное. Если мы останемся в рамках проверки значимости Фишера, в которой соображения, отличные от достигнутого значения P, могут быть включены в решения о том, как поступать с результатами теста, возможно, промежуточный анализ может быть не таким уж плохим. Тем не менее, несомненно, что спроектированный последовательный тест будет лучше, чем не спроектированный.
Майкл Лью