Означает ли статистическая независимость отсутствие причинно-следственной связи?

40

Две случайные величины A и B статистически независимы. Это означает, что в DAG процесса: и, конечно, . Но значит ли это, что от B до A нет входной двери? $(A {\perp\!\!\!\perp} B)$ $P(A|B)=P(A)$

Потому что тогда мы должны получить . Так что, если это так, означает ли статистическая независимость автоматически отсутствие причинно-следственной связи? $P(A|do(B))=P(A)$

independence causality bayesian-network dag user1834069
источник

37

Так что, если это так, означает ли статистическая независимость автоматически отсутствие причинно-следственной связи?

Нет, а вот простой контрпример с многомерным нормальным,

set.seed(100)
n <- 1e6
a <- 0.2
b <- 0.1
c <- 0.5
z <- rnorm(n)
x <- a*z + sqrt(1-a^2)*rnorm(n)
y <- b*x - c*z + sqrt(1- b^2 - c^2 +2*a*b*c)*rnorm(n)
cor(x, y)

С соответствующим графиком,

Здесь мы имеем, что и незначительно независимы (в многомерном нормальном случае нулевая корреляция подразумевает независимость). Это происходит потому, что обратный путь через точности отменяет прямой путь от к , то есть . Таким образом, . Тем не менее, напрямую вызывает , и мы имеем , что отличается от . $x$ $y$ $z$ $x$ $y$ $cov(x,y) = b - a*c = 0.1 - 0.1 = 0$ $E[Y|X =x] =E[Y] =0$ $x$ $y$ $E[Y|do(X= x)] = bx$ $E[Y]=0$

Ассоциации, вмешательства и контрафакты

Я думаю, что здесь важно сделать некоторые разъяснения относительно ассоциаций, вмешательств и контрфактов.

Причинно-следственные модели влекут за собой утверждения о поведении системы: (i) при пассивных наблюдениях, (ii) при вмешательствах, а также (iii) контрфакты. И независимость на одном уровне не обязательно переводит на другой.

Как показывает приведенный выше пример, мы не можем иметь никакой связи между и , то есть , и все же быть в том случае, если манипуляции с изменяют распределение , то есть . $X$ $Y$ $P(Y|X) = P(Y)$ $X$ $Y$ $P(Y|do(x)) \neq P(Y)$

Теперь мы можем пойти еще дальше. У нас могут быть причинно-следственные модели, в которых вмешательство на не меняет распределение популяции , но это не означает отсутствие контрфактуальной причинности! То есть, даже если , для каждого отдельного их исход был бы иначе , если бы вы изменили его . Это именно тот случай, описанный user20160, а также в моем предыдущем ответе здесь. $X$ $Y$ $P(Y|do(x)) = P(Y)$ $Y$ $X$

Эти три уровня составляют иерархию задач причинного вывода с точки зрения информации, необходимой для ответа на запросы по каждому из них.

Карлос Синелли
источник

1

Спасибо, это именно то, что я искал. Таким образом, я думаю, что моя путаница была вызвана (не каламбур) из-за того, что статистическая независимость также означает D-разделение между двумя переменными. Но это работает только наоборот, правильно?

user1834069

@ user1834069 верно, d-разделение подразумевает независимость, но независимость не подразумевает d-разделение. Эти два примера являются примерами, когда распределение неверно для графика, и вы можете видеть, что это зависит от выбора параметризации. Если мы изменим параметры, то зависимость снова появится.

Карлос Синелли

Хороший пример. Если я правильно помню, это одно из не поддающихся проверке допущений при извлечении причинно-следственных данных из данных наблюдений. Для линейных моделей в SEM в книге Перла также упоминается, что набор коэффициентов, которые приводят к неверному распределению, имеет меру 0.

Вимал

37

Предположим, у нас есть лампочка, управляемая двумя выключателями. Пусть и обозначают состояние переключателей, которые могут быть 0 или 1. Пусть обозначает состояние лампочки, которая может быть либо 0 (выключен), либо 1 (включен). Мы настроили схему так, что лампочка горит, когда два переключателя находятся в разных состояниях, и выключается, когда они находятся в одном и том же состоянии. Итак, схема реализует исключение или функцию: . $S_1$ $S_2$ $L$ $L = \text{XOR}(S_1, S_2)$

По конструкции, $L$ $S_1$ $S_2$

$p(S_1=1) = p(S_2=1) = 0.5$ $S_1$ $S_2$ $P(L=1) = 0.5$ $p(L \mid S_1) = p(L \mid S_2) = p(L)$ $L$ $S_1$ $L$ $S_2$

$L$ $S_1$ $S_2$

user20160
источник

2

P (L | d o (S_{1})) = P (L)

$P(L|do(S_1)) = P(L)$

p (L | S_{1}, S_{2})

$p(L|S_1, S_2)$

p (L)

$p(L)$

(v_{L}, v_{1}, v_{2}) \in {0, 1}^{3}

$(v_L, v_1, v_2) \in \{0,1\}^3$

p (L = v_{L} | S_{1} = v_{1}) = p (L = v_{L} | S_{2} = v_{2}) = 0.5

$p(L=v_L|S_1=v_1) = p(L=v_L|S_2=v_2) = 0.5$

p (L = v_{L} | S_{1} = v_{1}, S_{2} = v_{2}) \in {0, 1}

$p(L=v_L|S_1=v_1, S_2=v_2) \in \{0, 1\}$

0

Исходя из вашего вопроса, вы можете думать так:

$P(A B) = P(A) P(B)$ $A$ $B$

$P(AB)/P(A) = P(B|A) = P(B)$

$P(AB)/P(B) = P(A|B) = P(A)$

В этом отношении я считаю, что независимость означает отсутствие причинно-следственных связей. Однако зависимость не обязательно подразумевает причинно-следственную связь.

шейх
источник

2

P (A B) = P (A) P (B)

$P(AB)=P(A)P(B)$

P (A | d o (B)) = P (A)

$P(A|do(B))=P(A)$

Означает ли статистическая независимость отсутствие причинно-следственной связи?

Ответы: