Что не так с (некоторыми) псевдослучайностью

23

Я наткнулся на исследование, в котором пациенты старше 50 лет были псевдослучайными по годам рождения. Если год рождения был четным числом, обычная помощь, если нечетное число, вмешательство.

Его легче реализовать, его сложнее подорвать (легко проверить, какое лечение должен был получить пациент), его легко запомнить (задание продолжалось несколько лет). Но все же, мне это не нравится, я чувствую, что правильная рандомизация была бы лучше. Но я не могу объяснить почему.

Я ошибаюсь из-за этого или есть веская причина предпочесть «реальную» рандомизацию?

Джереми Майлз
источник
1
Добро пожаловать на сайт! Рад видеть ваше сообщение здесь.
Энди У
Ответы выше, я чувствую себя лучше "рандомизировать" на день рождения! Странный день для лечения, четный день для контроля ... Адальберто
AADF
6
@Adalberto Это упускает основной момент, который заключается в том, что любая определенная, нерандомизированная процедура распределения субъектов по группам не может быть уверена в том, что она обладает желаемыми свойствами, которыми обладает рандомизированная процедура. Предположим, вы проводите годы в таком исследовании только потом, чтобы рецензент указал на неожиданное, но сильное препятствие между лечением и соотношением дней рождения? Поскольку мы не можем предвидеть все это смешивание, мы обходим проблему путем случайного назначения.
whuber

Ответы:

28

Вы правы быть скептиком. В общем, следует использовать «реальную» рандомизацию, потому что, как правило, не все знают о соответствующих факторах (ненаблюдаемых). Если одна из этих ненаблюдаемых коррелирует с возрастом, который является нечетным или четным, то это также зависит от того, получали ли они лечение. Если это так, мы не можем определить эффект лечения: наблюдаемые нами эффекты могут быть связаны с лечением или с ненаблюдаемым фактором (факторами).

Это не проблема с реальной рандомизацией, где мы не ожидаем никакой зависимости между лечением и ненаблюдаемыми (хотя, конечно, для небольших выборок это может быть).

Чтобы построить историю, почему эта процедура рандомизации может быть проблемой, предположим, что в исследование были включены только те субъекты, которые были в возрасте 17/18 лет, когда, скажем, началась война во Вьетнаме. С 17 не было никакой возможности быть составленным (поправьте меня, если я ошибаюсь в этом), в то время как был этот шанс в 18 лет. Предполагая, что шанс был незначительным и что военный опыт меняет людей, это означает, что спустя годы эти две группы отличаются, даже если они разнесены всего на 1 год. Так что, возможно, лечение (лекарство) выглядит так, как будто оно не работает, но поскольку его получала только группа ветеранов Вьетнама, это может быть связано с тем, что оно не действует на людей с ПТСР (или другими факторами, связанными с будучи ветераном). Другими словами, вам нужно, чтобы обе группы (лечение и контроль) были идентичными, за исключением лечения, чтобы определить эффект лечения.

Таким образом, если вы не можете исключить, что между группами нет незаметных различий (но как вы это сделаете, если этого не наблюдается?), Реальная рандомизация предпочтительнее.

безымянный
источник
Спасибо. Хороший пример. (Я забыл назвать это псевдослучайным, я отредактировал это в вопросе).
Джереми Майлз
2
(+1) Когда я читал вопрос, Вьетнам был первым примером, который сразу всплыл в голову. Было забавно видеть, что вы взяли ту же тактику. Я полагаю, что это наиболее очевидный выбор с учетом заявленного возраста испытуемых, хотя возраст от начала до середины 60-х годов немного ближе.
кардинал
Извиняюсь за не по теме пинг: на Meta есть предложение сделать [randomized-эксперимент] синонимом тега [random- distribution ] ( stats.meta.stackexchange.com/a/4651 ). У вас достаточно репутации в этом теге, чтобы проголосовать за это предложение здесь: stats.stackexchange.com/tags/random-allocation/synonyms - теперь для его прохождения требуется 4 отзыва. Если вы не согласны с предложением, рассмотрите возможность комментирования Meta, чтобы объяснить, почему. Я скоро удалю этот комментарий. Приветствия.
говорит амеба: восстанови Монику
18

Это хорошее упражнение, чтобы время от времени отстаивать противоположные взгляды, поэтому позвольте мне начать с нескольких причин в пользу этой формы псевдослучайности. Они, в основном, в том, что он мало отличается от любой другой формы систематического отбора проб, такого как получение образцов сред окружающей среды в точках сетки в поле или отбор каждого другого дерева в саду, и, следовательно, этот отбор может иметь сопоставимые преимущества. ,

Аналогия здесь идеальна: возраст был «привязан» по годам, начиная с нуля, и распределение по группам чередовалось по этой (одномерной) сетке. Некоторые преимущества этого подхода состоят в том, чтобы гарантировать широкое, равномерное распределение образца по полю или саду (или возрасту, в данном случае), что помогает выровнять влияния, связанные с местоположением (или временем). Это может быть особенно полезно, когда теория предполагает, что местоположение является преобладающим фактором в вариации ответа. Более того, за исключением очень крошечных образцов, анализ данных какони были простой случайной выборкой, вносящей относительно небольшую ошибку. Кроме того, возможна некоторая рандомизация: в поле мы можем случайным образом выбрать начало координат и ориентацию сетки. В данном случае мы можем по крайней мере рандомизировать, являются ли четные годы контрольными или субъектами лечения.

Еще одним преимуществом выборки с привязкой к сетке является обнаружение локализованных изменений. На местах это будут «карманы» необычных ответов. Статистически мы можем думать о них как о проявлениях пространственной корреляции. В нынешней ситуации, если есть некоторый шанс, что относительно узкий возрастной диапазон испытывает необычные реакции, тогда сетчатый дизайн является отличным выбором, потому что чисто рандомизированный дизайн может случайно содержать большие разрывы в возрасте внутри одной из групп. (Но лучшим вариантом может быть стратификация: использование паритета возраста для формирования двух аналитических страт, а затем, независимо от каждого слоя, рандомизируют пациентов в контрольную группу и группу лечения.)

9быть связанным с факторами, важными для эксперимента. Это делает озабоченность в вопросе менее гипотетической: это реально. На этом этапе предыдущие ответы в этой теме способно представить дополнительные мысли, которые я хотел бы высказать, поэтому я остановлюсь и предложу вам перечитать их.

Whuber
источник
(+1) В частности, для контраргумента.
кардинал
13

Я согласен, что приведенный вами пример довольно безобиден, но ...

Если участвующие агенты (или лицо, занимающееся вмешательством, или люди, получающие вмешательство) узнают о схеме назначения, они могут воспользоваться этим. Такой самоотбор должен быть достаточно очевидным, поэтому он проблематичен в большинстве экспериментальных проектов.

Один пример, который я знаю в криминологии, выглядит следующим образом; Эксперимент должен был проверить сдерживающий эффект ночи в тюрьме после бытового спора, а не просто попросить преступника уйти на ночь. Офицеры получили буклет с листами, а цвет текущего листа сверху должен был определить, к какому обращению относится преступник. в конкретном случае должен был получить.

То, что в итоге произошло, было то, что офицеры намеренно не повиновались дизайну исследования и выбрали лист, основанный на личных предпочтениях того, что должно быть сделано с преступником. Не исключено, что в вашем примере, по крайней мере, можно предположить, что подобное вымысление лет возможно.

Энди У
источник
Хороший пример, спасибо, но часть рассуждений заключалась в том, что жульничество было намного сложнее - они не могли утверждать, что лист был (скажем) желтым, потому что я могу пойти и проверить дату рождения и посмотреть, были ли они правильно назначены.
Джереми Майлз
3
Я согласен с @JeremyMiles, это еще одна причина для двойных слепых рандомизированных исследований. Это просто предполагаемый аргумент против псевдослучайности - что легче обойти предполагаемое лечение, чем фактическую рандомизацию. (Мой пример на самом деле не является примером псевдослучайности, но он кратко иллюстрирует эту точку зрения.)
Энди У
Ну, это зависит от того, как была сделана (истинная) рандомизация - люди, участвующие в исследовании, сделали это частично, чтобы избежать проблем с подрывной деятельностью. Если вы используете реальную рандомизацию, вам нужно вести хороший учет, чтобы убедиться, что человек, который определяет рандомизацию, общается с человеком, проводящим лечение, и человек, который доставляет, делает правильные вещи. В вашем примере, если бы они использовали номер дома (скажем), офицерам было бы сложнее подорвать, хотя это не было случайным.
Джереми Майлз
1
Извиняюсь за не по теме пинг: на Meta есть предложение сделать [randomized-эксперимент] синонимом тега [random- distribution ] ( stats.meta.stackexchange.com/a/4651 ). У вас достаточно репутации в этом теге, чтобы проголосовать за это предложение здесь: stats.stackexchange.com/tags/random-allocation/synonyms - теперь для его прохождения требуется 4 отзыва. Если вы не согласны с предложением, рассмотрите возможность комментирования Meta, чтобы объяснить, почему. Я скоро удалю этот комментарий. Приветствия.
говорит амеба: восстанови Монику
0

Полная рандомизация, основанная на случайном распределении, непредсказуема, в вашем случае известно, будет ли дело назначено вмешательству или контролю до подтверждения приемлемости.

Аят
источник