В начале статьи, направленной на поощрение использования ПС в эпидемиологии, Оукс и Черч (1) привели утверждения Эрнана и Робинса о смешанном эффекте в эпидемиологии (2):
Можете ли вы гарантировать, что результаты вашего наблюдательного исследования не будут затронуты неизмеримым смешением? Единственный ответ, который может дать эпидемиолог, - «нет».
Это не просто говорит о том, что мы не можем гарантировать, что результаты наблюдательных исследований являются беспристрастными или бесполезными (поскольку, как сказал @propofol, их результаты могут быть полезны для разработки РКИ), но также и то, что PS, безусловно, не предлагают полного решения этой проблемы. проблема, или, по крайней мере, не обязательно дают лучшие результаты, чем другие сопоставления или многовариантные методы (см., например, (10)).
Оценки склонности (PS) по построению являются вероятностными, а не причинными показателями. Выбор ковариат, которые входят в функцию оценки предрасположенности, является ключевым элементом для обеспечения его надежности, и их слабость, как уже было сказано, в основном заключается в том, что он не контролирует ненаблюдаемые конфузоры (что весьма вероятно в ретроспективных исследованиях или исследованиях типа случай-контроль ) , Необходимо учитывать и другие факторы: (а) неправильная спецификация модели повлияет на прямые оценки воздействия (хотя на самом деле не больше, чем в случае МНК), (б) могут отсутствовать данные на уровне ковариат, (в) PS влияют не преодолеть синергетические эффекты, которые, как известно, влияют на причинную интерпретацию (8,9).
Что касается ссылок, то я обнаружил, что слайды Роджера Ньюсона - « Причинность», «конфузоры» и «оценки склонности» - относительно хорошо сбалансированы относительно преимуществ и недостатков использования показателей склонности, с иллюстрациями из реальных исследований. Было также несколько хороших работ, обсуждающих использование оценок склонности в обсервационных исследованиях или эпидемиологии окружающей среды два года назад в Статистике в Медицинеи я приложу пару из них в конце (3-6). Но мне нравится обзор Перла (7), потому что он предлагает более широкий взгляд на проблемы причинности (PS обсуждаются на стр. 117 и 130). Очевидно, вы найдете много других иллюстраций, глядя на прикладные исследования. Я хотел бы добавить две недавние статьи Уильяма Р. Шадиша, которые попали на сайт Эндрю Гелмана (11,12). Обсуждается использование оценок предрасположенности, но в двух работах основное внимание уделяется причинно-следственной связи в наблюдательных исследованиях (и ее сопоставлению со случайными параметрами).
Ссылки
- Оукс, JM и Черч, TR (2007). Предлагаемый комментарий: Методы оценки прогрессирующей склонности в эпидемиологии . Американский журнал эпидемиологии , 165 (10), 1119-1121.
- Эрнан М. А. и Робинс Дж. М. (2006). Инструменты для причинного вывода: мечта эпидемиолога? Эпидемиология , 17, 360-72.
- Рубин Д. (2007). Дизайн против анализа наблюдательных исследований причинных эффектов: параллели с дизайном рандомизированных исследований . Статистика в медицине , 26, 20–36.
- Шрайер, И. (2008). Письмо в редакцию . Статистика в медицине , 27, 2740–2741.
- Pearl, J. (2009). Замечания о методе оценки склонности . Статистика в медицине , 28, 1415–1424.
- Стюарт Э.А. (2008). Разработка практических рекомендаций по использованию оценок предрасположенности: дискуссия Питера Остина «Критическая оценка соответствия баллов предрасположенности в медицинской литературе между 1996 и 2003 годами» . Статистика в медицине , 27, 2062–2065.
- Pearl, J. (2009). Причинный вывод в статистике: обзор . Статистические обзоры , 3, 96-146.
- Оукс, JM и Джонсон, PJ (2006). Соответствие показателя склонности к социальной эпидемиологии . В Методы в социальной эпидемиологии , Дж. М. Оукс и С. Кауфман (ред.), С. 364-386. Jossez-Bass.
- Хефлер, М. (2005). Причинный вывод, основанный на контрфактах . BMC Методология медицинских исследований , 5, 28.
- Winkelmayer, WC и Kurth, T. (2004). Оценка склонности: помощь или реклама? Нефрологическая диализная трансплантация , 19 (7), 1671-1673.
- Shadish, WR, Clark, MH, и Steiner, PM (2008). Могут ли нерандомизированные эксперименты дать точные ответы? Рандомизированный эксперимент, сравнивающий случайные и неслучайные назначения . JASA , 103 (484), 1334-1356.
- Cook, TD, Shadish, WR, and Wong, VC (2008). Три условия, при которых эксперименты и обсервационные исследования дают сопоставимые оценки причинно-следственных связей: новые результаты сравнений внутри исследований . Журнал анализа политики и управления , 27 (4), 724–750.
Вопрос, кажется, включает в себя две вещи, которые действительно должны рассматриваться отдельно. Во-первых, можно ли сделать вывод о причинно-следственной связи из наблюдательного исследования, и на этом вы можете противопоставить взгляды, скажем, Pearl (2009), который утверждает, что да, если вы можете правильно смоделировать процесс, с мнением @propofol, найти много союзников в экспериментальных дисциплинах и, возможно, поделиться некоторыми мыслями, высказанными в (довольно неясном, но, тем не менее, хорошем) эссе Gerber et al (2004). Во-вторых, предполагая, что вы действительно думаете, что причинно-следственная связь может быть выведена из данных наблюдений, вы можете задаться вопросом, полезны ли при этом методы оценки склонности. Методы оценки склонности включают различные стратегии кондиционирования, а также взвешивание обратной склонности. Хороший обзор дан Lunceford and Davidian (2004).
Небольшая морщинка: сопоставление и вес оценки склонности также используются при анализе рандомизированных экспериментов, когда, например, есть интерес к вычислению «косвенных эффектов», а также когда есть проблемы потенциально неслучайного истощения или отсева ( в этом случае то, что у вас есть, напоминает обсервационное исследование).
Ссылки
Гербер А. и соавт. 2004. «Иллюзия обучения из наблюдательных исследований». В Shapiro I, и др., Проблемы и методы в изучении политики , издательство Кембриджского университета.
Lunceford JK, Davidian M. 2004. «Стратификация и взвешивание через оценку склонности в оценке причинно-следственных эффектов лечения: сравнительное исследование». Статистика в медицине 23 (19): 2937–2960.
Перл Дж. 2009. Причинность (2-е изд.) , Издательство Кембриджского университета.
источник
Традиционная мудрость гласит, что только рандомизированные контролируемые испытания («реальные» эксперименты) могут идентифицировать причинно-следственную связь.
Однако это не так просто.
Одна из причин, по которой рандомизации может быть недостаточно, заключается в том, что в «малых» выборках закон большого числа не является «достаточно сильным», чтобы обеспечить сбалансированность всех различий. Вопрос в том, что является «слишком маленьким» и когда начинается «достаточно большим»? Санкт-Монт (2015) утверждает здесь , что «достаточно большой» может также начинается в тысячах (п> 1000)!
В конце концов, дело в том, чтобы сбалансировать различия между группами, чтобы контролировать различия. Таким образом, даже в экспериментах необходимо соблюдать большую осторожность, чтобы сбалансировать различия между группами. Согласно расчетам Saint-Mont (2015), вполне возможно, что в небольших выборках можно значительно лучше использовать сопоставленные (сбалансированные вручную) образцы.
Что касается вероятности. Конечно, вероятность никогда не сможет дать окончательный ответ - если вероятность не является экстремальной (ноль или единица). Однако в науке мы часто сталкиваемся с ситуациями, в которых мы не можем дать окончательный ответ, так как все сложно. Отсюда необходимость вероятности. Вероятность - это не что иное, как способ выразить нашу неопределенность в утверждении. Как таковая, она похожа на логику; см. Бриггс (2016) здесь .
Таким образом, вероятность поможет нам, но не даст окончательных ответов, нет уверенности. Но это очень полезно - выражать неопределенность.
Отметим также, что причинно-следственная связь не является в первую очередь статистическим вопросом. Предположим, что два средства отличаются «значительно». Не означает ли, что группирующая переменная является причиной различия измеряемой переменной? Нет (не обязательно) Независимо от того, какую конкретную статистику вы используете - показатель склонности, p-значения, байесовские коэффициенты и т. Д. - таких методов (практически) никогда не бывает достаточно для резервного копирования причинных претензий.
источник