Мы все знакомы с наблюдательными исследованиями, которые пытаются установить причинно-следственную связь между нерандомизированным предиктором X и результатом путем включения каждого мыслимого потенциального препятствия в модель множественной регрессии. Таким образом, «контролируя» всех нарушителей, мы утверждаем, что мы изолируем эффект предиктора интереса.
Я испытываю растущий дискомфорт от этой идеи, основанной главным образом на необдуманных замечаниях, сделанных различными профессорами моих классов статистики. Они попадают в несколько основных категорий:
1. Вы можете контролировать только те ковариаты, которые вы думаете и измеряете.
Это очевидно, но мне интересно, действительно ли это самое пагубное и непреодолимое из всех.
2. Подход привел к ужасным ошибкам в прошлом.
Например, Petitti & Freedman (2005) обсуждают, как десятилетние статистически скорректированные обсервационные исследования пришли к катастрофически неверным выводам о влиянии заместительной гормональной терапии на риск сердечных заболеваний. Позднее РКИ обнаружили почти противоположные эффекты.
3. Отношение предиктор-результат может вести себя странно, когда вы управляете ковариатами.
Yu-Kang Tu, Gunnell & Gilthorpe (2008) обсуждают некоторые различные проявления, в том числе парадокс Лорда, парадокс Симпсона и переменные-супрессоры.
4. Одной модели (множественной регрессии) сложно адекватно подстраиваться под ковариаты и одновременно моделировать взаимосвязь предиктор-результат.
Я слышал, что это является причиной превосходства таких методов, как оценка склонности и стратификация по отношению к противникам, но я не уверен, что действительно понимаю это.
5. Модель ANCOVA требует, чтобы ковариат и предиктор интереса были независимыми.
Конечно, мы подбираем для собеседников именно то, ПОТОМУ ЧТО они соотносятся с предиктором интереса, поэтому, похоже, модель будет неудачной в тех точных случаях, когда мы этого больше всего хотим. Аргумент гласит, что корректировка подходит только для снижения шума в рандомизированных исследованиях. Миллер и Чепмен, 2001 дают отличный обзор.
Итак, мои вопросы:
- Насколько серьезны эти и другие проблемы, о которых я не знаю?
- Насколько я должен бояться, когда вижу исследование, которое «контролирует все»?
(Я надеюсь, что этот вопрос не слишком углубится в дискуссионную область, и с радостью предложу любые предложения по его улучшению.)
РЕДАКТИРОВАТЬ : я добавил пункт 5 после поиска новой ссылки.
источник
Ответы:
Существует общепринятый, возможно, нестатистический ответ - какие предположения нужно сделать, чтобы утверждать, что кто-то действительно контролировал ковариаты.
Это можно сделать с помощью причинных графиков Иудеи Перл и сделать исчисление .
См. Http://ftp.cs.ucla.edu/pub/stat_ser/r402.pdf, а также другие материалы на его веб-сайте.
Теперь, как статистикам, мы знаем, что все модели неверны, и реальный статистический вопрос заключается в том, являются ли идентифицированные предположения не слишком неправильными, чтобы наш ответ был примерно нормальным. Перл знает об этом и действительно обсуждает это в своей работе, но, возможно, не явно и не достаточно часто, чтобы не тратить время на то, чтобы многие статистики теряли уверенность в том, что у него есть ответ (что, я полагаю, он делает для того, какие предположения нужно сделать? ).
(В настоящее время ASA предлагает приз за учебный материал для включения этих методов в статистические курсы, см. Здесь )
источник
Ответ на вопрос 1:
Ответ на вопрос 2:
Очень бояться Чтобы просто повторить то, что уже сказали другие, и процитировать (грубо) изящный вводный текст Ричарда МакЭлриента о критическом мышлении в статистическом моделировании :
«... все модели ложные, но некоторые полезны ...»
источник