Я хотел бы знать, какая статистическая литература имеет отношение к следующей проблеме, и, возможно, даже идея о том, как ее решить.
Представьте себе следующую проблему:
У нас есть 4 возможных лечения некоторых заболеваний. Чтобы проверить, какое лечение лучше, мы проводим специальное исследование. В испытании мы начинаем с отсутствия субъектов, затем, один за другим, в исследование включается больше субъектов. Каждому пациенту случайным образом назначается один из 4 возможных способов лечения. Конечный результат лечения - «здоров» или «все еще болен», и, скажем, мы можем узнать этот результат мгновенно. Это означает, что в любой данный момент мы можем создать таблицу непредвиденных обстоятельств два на четыре, в которой будет указано, сколько наших пациентов попало в какое лечение / конечный результат.
В любой момент мы можем проверить таблицу непредвиденных обстоятельств (например, с помощью критерия хи-квадрат), чтобы увидеть, существует ли статистически разная обработка между 4 возможными обработками. Если один из них лучше, чем все остальные - мы прекращаем испытание и выбираем его в качестве «победителя». Если какое-либо испытание окажется хуже, чем все остальные три, мы исключим его из испытания и перестанем давать его будущим пациентам.
Однако проблема здесь заключается в том, как мне отрегулировать значение p для того факта, что тест может быть выполнен в любой заданной точке, что существует корреляция между тестами, а также что адаптивный характер процесса манипулирует процессом (для Например, если какое-то лечение окажется «плохим»)?
Ответы:
Эта область последовательных клинических испытаний была в значительной степени изучена в литературе. Среди известных исследователей - Скотт Эмерсон, Том Флемминг, Дэвид Деметс, Стивен Сенн и Стюарт Покок.
Можно указать «правило альфа-расходов». Термин берет свое начало в природе частых (нефишерианских) тестов, где каждое действие, которое увеличивает риск ложноположительного результата, должно обязательно снижать мощность, чтобы сохранить тест правильного размера. Однако большинство таких тестов требуют, чтобы «правила остановки» были заранее определены на основе информационных границ исследования. (как напоминание, больше информации означает большую мощность, когда ноль ложен).
Похоже, что вас интересует непрерывный процесс мониторинга, при котором каждое событие-время гарантирует «просмотр» данных. Насколько мне известно, такой тест не имеет силы. Это можно сделать с помощью байесовского анализа, где апостериорные значения постоянно обновляются как функция времени, а байесовские факторы используются для обобщения данных, а не значений.p
Видеть
[1] www.rctdesign.org/
источник
Это звучит как симуляция в порядке.
Поэтому я смоделировал вашу процедуру следующим образом: человек добавляются к пробной версии один за другим, случайным образом распределенные в одну из групп. Результат лечения для этого человека выбирается случайным образом (т. Е. Я имитирую нулевую гипотезу о всех методах лечения с нулевым эффектом). После добавления каждого человека я выполняю тест хи-квадрат в таблице непредвиденных обстоятельств и проверяю, есть ли . Если это так, тогда (и только тогда) я дополнительно выполняю тесты хи-квадрат для сокращенных таблиц сопряженности × чтобы проверить каждую группу против трех других групп, объединенных вместе. Если один из этих дальнейших четырех тестов окажется значительным (с тем же4 4 × 2 p ≤ α 2 × 2 α N NN=1000 4 4×2 p≤α 2×2 α ), тогда я проверяю, работает ли это лечение лучше или хуже, чем остальные три, объединенные вместе. Если хуже, я выгоняю это лечение и продолжаю добавлять людей. Если лучше, я прекращаю испытание. Если все человек будут добавлены без какого-либо успешного лечения, испытание закончится (обратите внимание, что результаты моего анализа будут сильно зависеть от ).N N
Теперь мы можем повторить это много раз и выяснить, в какой части прогонов одно из действий выходит победителем - это были бы ложные срабатывания. Если я запускаю его 1000 раз для номинального , я получаю 282 ложных срабатывания, то есть типа ошибок II типа.0,28α=0.05 0.28
Мы можем повторить весь этот анализ для нескольких номинальных и посмотреть, какую фактическую частоту появления ошибок мы получаем: Таким образом, если вы хотите, чтобы фактическая частота ошибок удерживалась, скажем, на уровне , вы должны выбрать номинальную около - но, конечно, лучше запустить более длительное моделирование, чтобы оценить это более точно.& alpha ; коэффициент ошибок 0,05 ~ 0,28 0,01 ~ 0,06 0,001 ~ 0,008 0,05 α 0,008α
Мой быстрый и грязный код в Matlab ниже. Пожалуйста, обратите внимание, что этот код «мертвый мозг» и не оптимизирован вообще; все работает в петлях и ужасно медленно. Это, вероятно, может быть значительно ускорено.
источник