Я пытаюсь понять логику d-разделения в каузальных байесовских сетях. Я знаю, как работает алгоритм, но я не совсем понимаю, почему «поток информации» работает так, как указано в алгоритме.
Например, на графике выше, давайте подумаем, что нам дан только X, и никакой другой переменной не наблюдалось. Затем по правилам d-разделения поток информации от X к D:
X влияет на A, который является . Это нормально, поскольку A вызывает X, и если мы знаем о влиянии X, это влияет на наше убеждение относительно причины A. Информационные потоки.
X влияет на B, который есть . Это нормально, так как A изменилось благодаря нашим знаниям о X, изменение в A также может повлиять на наши убеждения относительно его причины, B.
X влияет на C, который является . Это нормально, потому что мы знаем, что на B оказывают влияние наши знания о его косвенном влиянии, X, и поскольку B смещен на X, это будет влиять на все прямые и косвенные эффекты B. C - это прямое влияние B, и на него влияют наши знания о X.
Ну, до этого момента у меня все в порядке, поскольку поток информации происходит в соответствии с интуитивно понятными причинно-следственными связями. Но я не понимаю особого поведения так называемых V-структур или коллайдеров в этой схеме. В соответствии с теорией d-разделения, B и D являются частыми причинами C на приведенном выше графике, и это говорит о том, что, если мы не наблюдали C или любого из его потомков, информация о потоке из X блокируется в C. Хорошо, хорошо но мой вопрос почему?
Из вышеперечисленных трех шагов, начиная с X, мы увидели, что на C влияют наши знания о X, и поток информации происходил в соответствии с причинно-следственной связью. Теория d-разделения говорит, что мы не можем перейти от C к D, так как C не наблюдается. Но я думаю, что, поскольку мы знаем, что С является предвзятым и D является причиной С, на D тоже следует повлиять, в то время как теория говорит обратное. Я явно что-то упускаю из своего мышления, но не вижу, что это такое.
Поэтому мне нужно объяснение, почему поток информации блокируется на C, если C не наблюдается.
источник
Ответы:
Разве не интуитивно понятно, что вы не можете рассуждать от причины к ненаблюдаемому следствию к другой причине? Если дождь (B) и разбрызгиватель (D) являются причинами влажного грунта (C), то вы можете утверждать, что видение дождя подразумевает, что земля, вероятно, влажная, и по-прежнему полагать, что дождеватель должен быть включен, так как земля мокрый?! Конечно, нет. Вы утверждали, что земля была мокрой из-за дождя - вы не можете искать дополнительные причины!
Если вы наблюдаете влажную почву, конечно, ситуация меняется. Теперь вы можете рассуждать от одной причины к другой, как объясняет Фрэнк.
источник
Давайте на минутку забудем о X и рассмотрим только коллайдер из B, C и D. Причина, по которой v-структура может блокировать путь между B и D, заключается в том, что, как правило, если у вас есть две независимые случайные величины (B и D), которые влияют на один и тот же результат (C), то знание результата может позволить вам сделать выводы о взаимосвязи между случайными переменными, что позволит обеспечить поток информации.
Чтобы лучше это понять, было бы полезно взглянуть на парадокс Берксона , который описывает ту же ситуацию.
источник
Тогда крепкий орешек - это V-структура. Я хотел бы проиллюстрировать различие между вероятностью переменной S, обусловленной только наблюдением эффекта, и влиянием наблюдения другой переменной D, которая не зависит от S в той же ситуации, на вымышленном примере.
Допустим, кто-то проходит курс, скажем, линейную алгебру. Если он может сдать его, в основном зависит от сложности экзамена. Обозначим событие прохождения курса через P, передавая как 1 и 0 в противном случае; и сложность экзамена как D, сложная как 1 и простая как 0. И что-то бессмысленное может также оказать влияние на его производительность или результат, скажем, сингулярность происходит, и ему промывают мозги машина, а затем решает не делать Сдавать экзамен. Обозначим это событие через S, и его вероятность равна 0,0001. Это кажется невозможным, но по определению его шанс не должен быть нулевым.
Следовательно, теперь у нас есть график формы v-структуры:
1) Если мы не знаем результат, мы можем рассчитать вероятность возникновения сингулярности, учитывая, что курс прост.
Как вы можете видеть выше, это не имеет значения, сдан экзамен или нет. Что приходит, как это должно прийти. Это можно рассматривать как предельную вероятность над P.
И мы также можем определить вероятность того, что сингулярность произойдет, если студент не сдает экзамен:
Зная, что парень не сдает экзамен, мы можем догадаться, что ему может «промыть мозги» с помощью машины, - это 0,0001818, что немного больше, чем когда мы этого не знаем.
2) Но что если мы узнаем, что парень провалил экзамен и экзамен проходит легко?п(S, |¬P, ¬ D )знак равноP(S= 1 ,P= 0 , D = 0)п(P= 0 , D = 0 )знак равноP(P= 0 |S= 1 , D = 0 )P(S= 1 )P( D = 0 )п(P= 0 |S= 1 , D = 0 )P(S= 1 )P( D = 0 ) +P(P= 0 |S= 0 , D = 0 ) P( S= 0 ) P( D= 0 )= 0,999999 × 0,0001 × 0,50,2 × 0,9999 × 0,5 + 0,999999 × 0,0001 × 0,5= 0,0004998
И вот, изменение намного больше, чем мы знаем, он не сдал экзамен. Тогда мы видим, чтоп( S| п) ≠ P( S| п, Г ) мы можем сделать вывод, что S⊥ D |п∉ я(P(P, S, Д ) ) что означает, что D может влиять на S через P.
Пусть этот подробный вывод будет полезен.
источник