Почему смещение влияет, когда клиническое испытание прекращается на ранней стадии?

24

Промежуточный анализ представляет собой анализ данных в одном или нескольких временных точках до официального закрытия исследования с целью, например, возможно завершение исследования рано.

Согласно Piantadosi, S. ( Клинические испытания - методологическая перспектива ): « Оценка эффекта лечения будет смещена, когда испытание прекращается на ранней стадии. Чем раньше будет принято решение, тем больше будет смещение ».

Можете ли вы объяснить мне это утверждение? Я могу легко понять, что точность будет затронута, но утверждение об уклоне не очевидно для меня ...

ocram
источник
Я думаю, что это идеальный вопрос, чтобы "прояснить" различия между байесовской и частотной методологией
вероятностная

Ответы:

13

Прежде всего, вы должны отметить контекст: это применимо только тогда, когда испытание было остановлено досрочно из-за временного мониторинга, показывающего эффективность / бесполезность, а не по какой-то случайной внешней причине. В этом случае оценка величины эффекта будет смещена в полностью статистическом смысле. Если вы остановились на эффективность, оценочный эффект будет слишком высоким (при условии, что он положительный), если вы остановились на бесполезность, он будет слишком низким.

Piantodosi также дает интуитивное объяснение (раздел 10.5.4 в моем издании). Предположим, что истинная разница в двух значениях составляет 1 единицу. Когда вы проводите много испытаний и просматриваете их во время промежуточного анализа, у некоторых из них наблюдаются величины эффекта, значительно превышающие 1, некоторые значительно ниже единицы, а большинство - около 1 - распределение будет широким, но симметричным. Расчетная величина эффекта в этой точке не будет очень точной, но будет объективной. Однако вы останавливаете и сообщаете о величине эффекта только в том случае, если разница значительна (скорректирована для многократного тестирования), то есть оценка находится на высокой стороне. Во всех остальных случаях вы продолжаете и не сообщаете оценку. Это означает, что при условии, что остановился ранораспределение размера эффекта не является симметричным, и его ожидаемое значение выше истинного значения оценки.

Тот факт, что этот эффект является более серьезным на ранних этапах, связан с большим препятствием для прекращения испытания, поэтому большая часть распределения выбрасывается во время подготовки.

Анико
источник
1
Сначала я тоже так думал, но когда я сел, чтобы доказать это, я не смог: я мог только показать, что полученная оценка на самом деле объективна. (Новая интуиция: положительное смещение от условной остановки уравновешивает отрицательное смещение от переноса эксперимента до завершения.) Итак: можете ли вы представить более строгую демонстрацию?
whuber
@whuber я постараюсь написать его, но дело в том , что заявление Piantodosi является лишь о том, что происходит , когда вы делаете остановки рано. Нет завершения, чтобы сбалансировать это.
Анико
2
@whuber Да, именно об этом говорится и в первоначальном утверждении. Ваше мнение о том, что при завершении исследования будет противоположное смещение, также верно. Весь смысл в том, что, как только вы начнете выполнять промежуточный мониторинг, начнутся забавные вещи с вашей способностью оценить величину эффекта.
Анико
3
@Aniko Должна быть предусмотрена возможность корректировки смещения при досрочном прекращении. Поэтому мы, кажется, обсуждаем наивное использование стандартного оценщика, предназначенного для случайных выборок фиксированного размера, в экспериментах с условным завершением, где такие оценщики не имеют желаемых свойств. (+1, кстати.)
whuber
2
@whuber Конечно, вы можете настроить это смещение, но сначала вы должны признать, что он существует. И затем вы должны продать исследователю, что, хотя 5 из 10 пациентов ответили четко, предполагаемый уровень ответа составляет 40% (составленные цифры) после корректировки смещения из-за ранней остановки.
Анико
3

Вот иллюстрация того, как предвзятость может возникнуть в выводах, и почему это может быть не полная история. Предположим, у вас есть последовательное испытание препарата, который, как ожидается, будет иметь положительный (+1) эффект, но может иметь отрицательный эффект (-1). Пять морских свинок проверяются одна за другой. Неизвестная вероятность положительного исхода в одном случае на самом деле и отрицательный результат134 .14

Таким образом, после пяти испытаний вероятности различных результатов

 Outcome     Probability
+5-0 = +5    243/1024
+4-1 = +3    405/1024
+3-2 = +1    270/1024
+2-3 = -1     90/1024
+1-4 = -3     15/1024
+0-5 = -5      1/1024

таким образом, вероятность положительного результата в целом составляет 918/1024 = 0,896, а средний результат равен +2,5. Разделив на 5 испытаний, это в среднем +0,5 результата за испытание.

Это объективная фигура, так как она также .+1×341×14

Предположим, что для защиты морских свинок исследование будет прекращено, если на каком-либо этапе совокупный результат будет отрицательным. Тогда вероятности становятся

 Outcome     Probability
+5-0 = +5    243/1024
+4-1 = +3    324/1024
+3-2 = +1    135/1024
+2-3 = -1     18/1024
+1-2 = -1     48/1024
+0-1 = -1    256/1024

таким образом, вероятность положительного результата в целом составляет 702/1024 = 0,6855, а средний результат равен +1,953. Если мы посмотрели среднее значение результата на испытание в предыдущем расчете, то есть, используя ,+3+55 ,+1+35 ,-1+15 ,-115 и-113 тогда мы получим +0,184.11

Это те чувства, в которых есть смещение из-за ранней остановки во второй схеме, и это смещение в предсказанном направлении. Но это не полная история.

Почему бывающая и вероятностно-логическая мысль о том, что ранняя остановка должна давать непредвзятые результаты? Мы знаем, что ожидаемый результат испытаний по второй схеме равен +1,953. Ожидаемое количество испытаний составляет 3,906. Таким образом, деля одно на другое, мы получаем +0,5, точно так же, как и раньше, и то, что было описано как беспристрастное.

Генри
источник
Вы берете перспективу мира «до данных». То, что вы говорите, верно, что правило остановки имеет значение, но только до того, как вы рассмотрите данные . Это потому, что правило остановки предоставляет информацию о данных, но не об истинных вероятностях. Поэтому, как только данные введены, правило остановки больше не имеет значения. Обратите внимание, что истинные вероятности неизвестны в реальном эксперименте. Таким образом, вы также должны рассмотреть ситуации, когда вероятности, скажем, иP(-)=3P(+)=14 , а также любая другая возможная комбинация. P()=34
вероятностная
Поэтому я беру ваш пример, утверждая, что . Это, безусловно, правда! Мой ответ также условия на D, хотя. Это потому, что, если вы скажете мне правило остановки, а не то, действительно ли вы остановились, я могу понять это из набора данных, который у меня есть. Фактически, я могу выяснить, остановилось ли бы какое-либо правило остановки, как только я знаю данные. P(H|S,I)P(H|I)D
вероятностная
1

Что ж, мои знания об этом получены из речи Харвиана в 2008 году http://bookshop.rcplondon.ac.uk/details.aspx?e=262 По сути, насколько я помню, результаты будут смещены как 1) преждевременная остановка обычно означает, что лечение было более или менее эффективным, чем ожидалось, и если оно положительное, вы можете воспользоваться случайностью. Я полагаю, что значения p рассчитываются на основе планируемого размера выборки (но я могу ошибаться в этом), а также, если вы постоянно проверяете свои результаты, чтобы увидеть, были ли какие-либо эффекты показаны, вам необходимо исправить для множественных сравнений чтобы убедиться, что вы не просто находите случайный эффект. Например, если вы проверите 20 раз для значений p ниже 0,05, то, по статистике, вы почти наверняка найдете один значимый результат.

richiemorrisroe
источник
ЧАСТЬ 1 Прежде всего, спасибо за ваш ответ. Действительно, часто используемые методы подходят для множественного тестирования. Следовательно, проблема оценки предвзятого эффекта лечения оттуда не может возникнуть. При промежуточном анализе тест основан на текущей информации с использованием текущего размера выборки, а не общего запланированного размера выборки. Так что проблема тоже не в этом.
Октябрь
ЧАСТЬ 2 Я согласен с тем, что ранняя остановка может означать, что лечение «более эффективно, чем прыгал». В этом смысле оценка эффекта лечения будет больше, чем ожидалось. Но, по моему мнению, это не делает его предвзятым ... Вместо этого, по моему мнению, в некотором смысле, «наша надежда была предвзятой».
Октябрь
1

Я бы не согласился с этим утверждением, если только под "предвзятостью" Piantadosi не подразумевается та часть точности, которая обычно называется предвзятостью. Вывод не будет «предвзятым», потому что вы решили остановиться сам по себе: он будет «предвзятым», потому что у вас меньше данных. Так называемый «принцип правдоподобия» гласит, что логический вывод должен зависеть только от данных, которые наблюдались, а не от данных, которые могли наблюдаться, но не были. ЛП говорит

P(H|D,S,I)=P(H|D,I)

HDSIDIS=g(D,I)AA=AS=g(D,I)DID,S,I=D,g(D,I),I=D,IDI что это имеет значение.

probabilityislogic
источник
@probabilityislogic: Спасибо! Если я хорошо понимаю, «предвзятость» не следует воспринимать в статистическом смысле. Я думаю, что это имеет смысл, потому что Пиантадоси говорит о «предвзятости» оценки, а не оценки ...
ocram
E(μμ^)2=var(μ^)+Bias(μ^)μμ^это «оценщик». Если второе слагаемое (смещение) зависит от размера выборки, то можно ожидать, что ранняя остановка увеличит смещение, поскольку оно уменьшило размер выборки по сравнению с продолжением эксперимента. Но из того, что вы говорите, это звучит как «предвзятость» следует интерпретировать как «ошибка» с точки зрения Piantadosi.
вероятностная
1
Этот аргумент ничего не говорит о предвзятости, только аспект проверки гипотезы проблемы, который никто не подвергает сомнению.
Анико
@Prob Я должен согласиться с @Aniko: очевидно, что когда null равен true, существует положительная вероятность досрочного прекращения, и в этом случае оценка эффекта будет отлична от нуля. Таким образом, ожидание ожидаемого эффекта, обусловленное досрочным прекращением, является положительным, тогда как безусловное ожидание равно нулю. (Обратите внимание, что ФП занимается оценкой , а не проверкой гипотез.)
whuber
Hμ(a,a+da)SDISSSDIμ
вероятностная
0

там будет иметь уклон (в «статистическом смысле») , если прекращение исследований не является случайным.

В серии экспериментов, которые заканчиваются, «ранние» результаты (а) некоторых экспериментов, которые в конечном итоге не обнаруживают «никакого эффекта», покажут некоторый эффект (в результате случайности) и (б) некоторые эксперименты, которые в конечном итоге действительно найдут эффект покажет «нет эффекта» (вероятно, из-за недостатка мощности). В мире, в котором вы прекращаете испытания, если вы останавливаете (а) чаще, чем (б), вы в конечном итоге пройдете через серию исследований с предвзятым отношением к поиску эффекта. (Та же логика применима к величинам эффекта ; прекращение исследований, которые показывают эффект «больше, чем ожидалось», на более раннем этапе чаще, чем те, которые показывают «как ожидается, или меньше», приведет к увеличению числа результатов «большого эффекта».)

Если на самом деле медицинские испытания прекращаются, когда ранние результаты показывают положительный эффект - для того, чтобы сделать лечение доступным для субъектов, принимавших плацебо или других, - но не тогда, когда ранние результаты не дают окончательных результатов, в таком тестировании будет больше ошибок типа 1, чем было бы, если бы все эксперименты были доведены до конца. Но это не значит, что практика неправильна; С моральной точки зрения цена ошибки типа 1 может быть ниже, чем отказ в лечении, так же быстро, как и в случае лечения, которое действительно будет работать в конце полного испытания.

dmk38
источник
Пожалуйста, смотрите мой комментарий к ответу Анико, потому что я хотел бы задать вам тот же вопрос: можете ли вы предоставить более строгую демонстрацию?
whuber
Я откладываю на Анико - он делает лучшую работу, чем я мог. Но если вы согласны с тем, что «эффект ящика стола» приводит к смещению, логика здесь идентична. Существует предвзятость в пользу данных, поддерживающих гипотезу - в первом случае b / c не подтверждающие данные не сообщаются, во втором b / c некоторая часть неподдерживаемых данных обязательно не собирается: окончание испытания рано, когда результаты выглядят хорошими, исключает ту часть распределения «плохих результатов», которая заполняется испытаниями, которые дают свои плохие результаты поздно . Может быть, это смещение можно отрегулировать - но смещение нуждается в корректировке.
dmk38
@dmk Я просто пытаюсь подтолкнуть вас обоих к дискуссии с @Probability, с которой вы, похоже, резко не согласны ;-).
whuber
1
@whuber, @dmk - я думаю, что нам суждено не согласиться не потому, что каждый из нас неправ, а потому что каждый отвечает на свой вопрос. Частец считаетп(D|ЧАС,S,я)как «ответ», и если это объект, то правило остановки имеет значение. Но на какой вопрос это ответ? Для меня это отвечает на вопрос: «какие данные мы, вероятно, будем наблюдать, учитывая, что гипотеза верна (или параметр является названным значением), что мы остановились рано и из нашей предварительной информации?» Но это не тот вопрос, который на самом деле задают, я думаю (более позднее)
вероятностный
1
@probability Это один из способов взглянуть на это. Другой способ состоит в том, чтобы полностью уклониться от гипотезы и решить вопрос, который фактически задают; а именно, каков размер лечебного эффекта ? С этой точки зрения прекращение может произойти, когда оценка известна с достаточной точностью, чтобы поддержать принятие решения. Например, мы могли бы хотеть иметь высокую уверенность в том, что выгода для здоровья от назначения лечения, вероятно, превысит затраты (и побочные эффекты) лечения.
whuber