Является ли регрессия причиной, если нет пропущенных переменных?

13

Регрессия y на x не должна быть причинной, если есть пропущенные переменные, которые влияют как на x и на y . Но если не для пропущенных переменных и ошибки измерения, является ли регрессия причиной? То есть, если каждая возможная переменная включена в регрессию?

Эша
источник
4
Нет, даже если вы включите каждую переменную в мире, это может быть обратная причина. Например, близость планеты к ее ближайшей звезде может быть точно предсказана температурой поверхности планеты, но очевидно, что причинно-следственная связь идет в другую сторону
gazza89
@ gazza89 - так как это эффективно отвечает на вопрос, вы можете расширить его в ответ.
jbowman
3
Что такое "пропущенные переменные"? Предположим, у меня есть один Y и 4 X в моем наборе данных. Я подхожу к модели, включая все 4 х. Тогда у меня нет пропущенных переменных?
user158565

Ответы:

20

Нет, это не так, я покажу вам некоторые контрпримеры.

Первый - обратная причинно-следственная связь . Рассмотрим причинную модель YX , где X и Y - стандартные гауссовские случайные величины. Тогда E[Y|do(x)]=0 , так как X не вызывает Y , но E[Y|x] будет зависеть от X .

Второй пример - управление коллайдерами (см. Здесь ). Рассмотрим причинную модель XZY , то есть X не вызывает Y а Z является общей причиной. Но учтите, что если вы запустите регрессию, включающую Z , коэффициент регрессии X не будет равен нулю, потому что обусловливание общей причины вызовет связь между Y и X (вы можете захотеть увидеть и здесь Path Analysis in Presence условный коллайдер ).

В более общем смысле, регрессия Y на X будет причинной, если переменные, включенные в регрессию, удовлетворяют критерию черного хода .

Карлос Синелли
источник
3
Настоятельно рекомендую книгу «Почему» Иудеи Перл. Подробно объясняет, что Карлос относится.
Маркос Кашиурис
3
Что означает ? do(x)
naught101
5
@ naught101 это означает, что вы фактически заставляете X = x, в отличие от пассивного наблюдения X = x, см. здесь stats.stackexchange.com/questions/211008/dox-operator-meaning/…
Карлос
Спасибо, но мне не совсем понятны обозначения. Означает ли что Z вызывает X и Y ? Должны ли стрелки быть обращены вспять? XZYZXY
Эша
@Esha Это означает, что и y вызывают zxyz
Карлос Синелли
6

В дополнение к важному ответу Карлоса Синелли на этот вопрос, есть еще несколько причин, по которым коэффициенты регрессии могут не быть причинно-следственными.

Во-первых, неправильная спецификация модели может привести к тому, что параметры не будут причинно-следственными. Тот факт, что в вашей модели есть все соответствующие переменные, еще не означает, что вы правильно настроили их. В качестве очень простого примера рассмотрим переменную X которая распределена симметрично относительно 0. Предположим, что на вашу переменную результата Y влияет X так, что E(YX)=X2 . Регрессия Y на X (в отличие от X2 ) даст расчетный коэффициент для Xоколо 0, явно предвзятым, несмотря на вы наладив для всех (единственной) переменной , которая влияет на Y .

Во-вторых, и в связи с темой обратной причинно-следственной связи также существует риск того, что вы можете иметь предвзятость выбора , то есть, что ваша выборка была выбрана таким образом, что она не является репрезентативной для группы населения, к которой вы хотите сделать свой вывод. Кроме того, пропущенные данные могут также привести к смещению, если данные не пропущены полностью случайно.

Фил
источник