Я могу вспомнить хотя бы один наивный пример. Предположим, я хочу изучить отношения между X и Z. Я также подозреваю, что Y влияет на Z, поэтому я контролирую Y. Однако, как выясняется, без ведома меня X вызывает Y, а Y вызывает Z. Поэтому, контролируя для Y я «скрываю» отношения между X и Z, так как X не зависит от Z, заданного Y.
Теперь, в предыдущем примере, это может быть тот случай, когда я должен изучать отношения между X и Y и Y и Z. Однако, если бы я знал такие вещи априори, я бы не занимался наукой в первое место. Исследование, которое я ДЕЙСТВИТЕЛЬНО сделал, теперь предполагает, что нет никакой связи между X и Z, что не так. X и Z связаны между собой.
Это показано на следующей диаграмме зависимости. В правильном сценарии Z зависит от X и Y, а X и Y независимы. Мы справедливо контролируем Y, чтобы определить отношения между X и Z. В левом сценарии Z зависит от Y, который зависит от X. X и Z независимы, учитывая Y, поэтому связь между X и Z "скрывается", контролируя для Y.
Мой вопрос в основном «Когда уместно контролировать переменную Y, а когда нет?» ... Может быть трудно или невозможно полностью исследовать отношения между X и Y, но, например, управление Y на данном уровне является опция. Как мы решаем, прежде чем проводить наше исследование, и каковы распространенные ошибки контроля слишком много или слишком мало?
Цитаты приветствуются.
Ответы:
Обусловливание (то есть корректировка) вероятностей какого-либо результата с учетом некоторого предиктора для третьих переменных широко практикуется, но, как вы правильно заметили, может фактически вносить систематическую ошибку в результирующую оценку как представление причинных эффектов . Это может даже произойти с «классическими» определениями потенциального причинного нарушителя, потому что как у самого собеседника, так и у предиктора интереса каждый из них может иметь дальнейшие причинно-следственные факторы вверх по течению. Например, в приведенной ниже DAG является классическим спутником причинного влияния E на D , поскольку (1) он вызывает и, следовательно, связан с E , а (2) связан с D, поскольку он связан сL E D E D , который связан с D . Тем не менее, либо обусловливание, либо расслоение P ( D | E ) на L («коллайдер») приведет к смещенным причинным оценкам влияния E на D, поскольку L смешивается с D из-за неизмеренной переменной U 2 , а L смешивается с E по неизмеренной переменной U 1 .U2 D P(D|E) L E D L D U2 L E U1
Понимание того, какие переменные обусловливают или стратифицируют анализ для обеспечения объективной оценки причинно-следственных связей, требует тщательного рассмотрения возможных групп обеспечения доступности баз данных с использованием критериев идентификации причинно-следственных связей - без общих причин, которые не блокируются закулисными путями - описанными Перлом, Робинсом и другими. , Там нет ярлыков. Изучите общие смешанные шаблоны. Изучите общие шаблоны смещения выбора. Практика.
Ссылки
Гренландия С., Перл Дж. И Робинс Дж. М. (1999). Причинно-следственные диаграммы для эпидемиологических исследований . Эпидемиология , 10 (1): 37–48.
Эрнан, М. А. и Робинс, JM (2018). Причинный вывод . Чепмен и Холл / CRC, Бока-Ратон, Флорида
Maldonado, G. and Greenland, S. (2002). Оценка причинно-следственных эффектов . Международный журнал эпидемиологии , 31 (2): 422–438.
Pearl, J. (2000). Причинность: модели, рассуждения и умозаключения . Издательство Кембриджского университета.
источник
Я полагаю, быстрый ответ из одного предложения на ваш вопрос,
является «задним критерием».
Структурно-причинная модель Иудеи Перл может точно сказать, какие переменные являются достаточными (и когда это необходимо) для обусловленности, чтобы вывести причинное влияние одной переменной на другую. А именно, на этот вопрос отвечает критерий «черного хода», который описан на странице 19 этого обзорного документа Pearl.
Главное предостережение заключается в том, что вам необходимо знать причинно-следственную связь между переменными (в форме стрелок на графике). Обойти это невозможно. Это где сложность и возможная субъективность могут вступить в игру. Структурная причинно-следственная модель Перла позволяет вам только знать, как отвечать на правильные вопросы с учетом причинно-следственной модели (т. Е. Ориентированного графика), какой набор причинно-следственных моделей возможен при распределении данных или как искать причинно-следственную структуру, выполняя правильный эксперимент. Он не говорит вам, как найти правильную причинную структуру, учитывая только распределение данных. Фактически, он утверждает, что это невозможно без использования внешних знаний / интуиции о значении переменных.
Критерии «черного хода» можно сформулировать следующим образом:
Это или критерий, в отличие от общего критерия задней двери , которая является и критерий.
Чтобы прояснить критерий «черного хода», он говорит вам о том, что для данной причинно-следственной модели при обусловливании достаточной переменной вы можете узнать причинно-следственную связь из распределения вероятности данных. (Как мы знаем, одного совместного распределения недостаточно для выявления причинно-следственной связи, поскольку множественные причинные структуры могут быть ответственны за одно и то же распределение. Именно поэтому требуется и причинная модель.) Распределение можно оценить с использованием обычных статистических / методы машинного обучения по данным наблюдений. Так что пока вы знаете что причинная структура позволяет обусловливать переменную (или набор переменных), ваша оценка причинного влияния одной переменной на другую так же хороша, как и ваша оценка распределения данных, которые вы получаете статистическими методами.
Вот что мы находим, когда применяем критерий «черного хода» к вашим двум диаграммам:
Как я упоминал ранее, использование критерия «черного хода» требует, чтобы вы знали причинную модель (то есть «правильную» диаграмму стрелок между переменными). Но Модель Структурной Причинности, на мой взгляд, также дает лучший и наиболее формальный способ поиска такой модели или узнать, когда поиск бесполезен. У него также есть замечательный побочный эффект от устаревания таких терминов, как «путаница», «посредничество» и «ложный» (все, что меня смущает). Просто покажи мне картинку, и я скажу, какие круги нужно контролировать.
источник
Следующее может или не может быть подходящим для вашего случая: если
X
это лечение, то вы можете обойти свою проблему, используя сопоставление баллов склонности, в котором вы все равно сохраните переменную,Y
когда будете делать сопоставление. Другими словами, вы балансируете ковариаты (Y
это один из таких ковариат), которые предсказывают получение леченияX
.Обратите внимание, что
Z
в приведенной выше ссылке на переменную результата нет ссылки . Вы также можете проверить, насколько сбалансированы ваши наблюдения (путем создания таблицы баланса до и после сопоставления), что может дать вам представление о том, насколькоX
определяетсяY
.источник