Вывод условных распределений многомерного нормального распределения

114

У нас есть многомерный нормальный вектор YN(μ,Σ) . Попробуйте разделить μ и Y на

μ=[μ1μ2]
Y=[y1y2]

с похожим разделением Σ на

[Σ11Σ12Σ21Σ22]
Тогда, (y1|y2=a) , условное распределение первого раздела по второму, равно N(μ¯,Σ¯) , со средним
μ¯=μ1+Σ12Σ221(aμ2)
и ковариационной матрицей
Σ¯=Σ11Σ12Σ221Σ21

На самом деле эти результаты также представлены в Википедии, но я понятия не имею, как получается μ¯ и Σ¯ . Эти результаты имеют решающее значение, поскольку они являются важной статистической формулой для получения фильтров Калмана . Кто-нибудь предоставит мне шаги по выводу μ¯ и Σ¯ ? Большое спасибо!

Летающая свинья
источник
24
Идея состоит в том, чтобы использовать определение условной плотности . Вы знаете, что соединение является двумерной нормалью и что маргинальный является нормалью, тогда вам просто нужно заменить значения и выполнить неприятную алгебру. Эти заметки могут быть полезны. Вот полное доказательство. f(y1|y2=a)=fY1,Y2(y1,a)fY2(a)fY1,Y2fY2
1
Ваша вторая ссылка отвечает на вопрос (+1). Почему бы не поставить его в качестве ответа @Procrastinator?
gui11aume
1
Я не осознавал этого, но, думаю, я неявно использовал это уравнение в условном PCA. Условный PCA требует преобразования , которое эффективно вычисляет условную ковариационную матрицу при некотором выборе A.(IA(AA)1A)Σ
Джон
@Procrastinator - ваш подход на самом деле требует знания идентификатора матрицы Вудбери и знания блочной инверсии матрицы. Это приводит к излишне сложной матричной алгебре.
вероятностная
2
@probabilityislogic На самом деле результат подтверждается приведенной мною ссылкой. Но это респектабельно, если вы найдете это более сложным, чем другие методы. Кроме того, я не пытался предложить оптимальное решение в своем комментарии . Кроме того, мой комментарий был предшествен ответу Макроса (за который я проголосовал, как вы можете видеть).

Ответы:

111

Вы можете доказать это, явно рассчитав условную плотность методом грубой силы, как в ссылке Прокрастинатора (+1) в комментариях. Но есть также теорема, которая говорит, что все условные распределения многомерного нормального распределения являются нормальными. Поэтому остается только вычислить средний вектор и ковариационную матрицу. Я помню, что мы вывели это на уроке временных рядов в колледже, умно определив третью переменную и используя ее свойства, чтобы получить результат проще, чем решение методом грубой силы в ссылке (если вы знакомы с матричной алгеброй). Я ухожу из памяти, но это было что-то вроде этого:


Пусть будет первым разделом, а - вторым. Теперь определите где , Теперь мы можем написатьx1x2z=x1+Ax2A=Σ12Σ221

cov(z,x2)=cov(x1,x2)+cov(Ax2,x2)=Σ12+Avar(x2)=Σ12Σ12Σ221Σ22=0

Следовательно, и не коррелированы и, поскольку они вместе нормальны, они независимы . Теперь ясно, что , поэтому следует, чтоzx2E(z)=μ1+Aμ2

E(x1|x2)=E(zAx2|x2)=E(z|x2)E(Ax2|x2)=E(z)Ax2=μ1+A(μ2x2)=μ1+Σ12Σ221(x2μ2)

что доказывает первую часть. Для ковариационной матрицы обратите внимание, что

var(x1|x2)=var(zAx2|x2)=var(z|x2)+var(Ax2|x2)Acov(z,x2)cov(z,x2)A=var(z|x2)=var(z)

Теперь мы почти закончили:

var(x1|x2)=var(z)=var(x1+Ax2)=var(x1)+Avar(x2)A+Acov(x1,x2)+cov(x2,x1)A=Σ11+Σ12Σ221Σ22Σ221Σ212Σ12Σ221Σ21=Σ11+Σ12Σ221Σ212Σ12Σ221Σ21=Σ11Σ12Σ221Σ21

что доказывает вторую часть.

Примечание. Для тех, кто не очень знаком с используемой здесь алгеброй матриц, это отличный ресурс .

Изменить: одно свойство, используемое здесь, это не в поваренной книге матрицы (хороший улов @FlyingPig) это свойство 6 на странице википедии о ковариационных матрицах: это для двух случайных векторов , Конечно, для скаляров но для векторов они различны, поскольку матрицы расположены по-разному.x,y

var(x+y)=var(x)+var(y)+cov(x,y)+cov(y,x)
cov(X,Y)=cov(Y,X)
макрос
источник
Спасибо за этот блестящий метод! Есть одна матричная алгебра, которая мне не кажется знакомой, где я могу найти формулу для открытия ? Я не нашел его по отправленной вами ссылке. var(x1+Ax2)
Летающая свинья
@ Летучая свинья, пожалуйста. Я полагаю, что это результат уравнений сочетании с дополнительным свойством дисперсии суммы случайных векторов, не записанных в Matrix Cookbook - я добавил этот факт в свой ответ - спасибо, что поймал это! (291),(292)
Макро
13
Это очень хороший ответ (+1), но его можно улучшить с точки зрения упорядочения подхода. Мы начнем с того, что хотим получить линейную комбинацию всего вектора, которая является независимой / некоррелированной с . Это потому, что мы можем использовать тот факт, что что означает и . Это, в свою очередь, приводит к выражениям для и . Это означает , что мы должны принять . Теперь нам требуется . Если обратим, мы имеемz=Cx=C1x1+C2x2x2p(z|x2)=p(z)var(z|x2)=var(z)E(z|x2)=E(z)var(C1x1|x2)E(C1x1|x2)C1=Icov(z,x2)=Σ12+C2Σ22=0Σ22C2=Σ12Σ221 .
вероятностная
1
@jakeoung - это не доказывает, что , а устанавливает его на это значение, чтобы мы получили выражение, содержащее переменные, о которых мы хотим знать. C1=I
вероятностная
1
@jakeoung Я тоже не совсем понимаю это утверждение. Я так понимаю: если , то . Таким образом, значение представляет собой произвольный масштаб. Поэтому мы устанавливаем для простоты. cov(z,x2)=0cov(C11z,x2)=C11cov(z,x2)=0C1C1=I
Кен Т
6

Ответ Макроса великолепен, но здесь есть еще более простой способ, который не требует использования какой-либо внешней теоремы, утверждающей условное распределение. Это включает в себя запись расстояния Маханалобиса в форме, которая разделяет переменную аргумента для условного утверждения, и затем соответственно разложение на нормальную плотность.


Переписывание расстояния Маханалобиса для условного вектора: этот вывод использует формулу обращения матрицы, в которой используется дополнение Шура . Сначала мы используем блочную формулу обращения, чтобы написать матрицу обратной дисперсии как:ΣS=Σ11Σ12Σ221Σ21

Σ1=[Σ11Σ12Σ21Σ22]1=[Σ11Σ12Σ21Σ22],

где:

Σ11=ΣS1 Σ12=ΣS1Σ12Σ221,Σ21=Σ221Σ12ΣS1Σ22=Σ221Σ12ΣS1Σ12Σ221. 

Используя эту формулу, мы можем теперь написать расстояние Маханалобиса как:

(yμ)TΣ1(yμ)=[y1μ1y2μ2]T[Σ11Σ12Σ21Σ22][y1μ1y2μ2]=(y1μ1)TΣ11(y1μ1)+(y1μ1)TΣ12(y2μ2)+(y2μ2)TΣ21(y1μ1)+(y2μ2)TΣ22(y2μ2)=(y1(μ1+Σ12Σ221(y2μ2)))TΣS1(y1(μ1+Σ12Σ221(y2μ2)))=(y1μ)TΣ1(y1μ),

где:

μμ1+Σ12Σ221(y2μ2),ΣΣ11Σ12Σ221Σ21.

Обратите внимание, что этот результат является общим результатом, который не предполагает нормальности случайных векторов. Это дает полезный способ переформирования расстояния Маханалобиса так, чтобы оно представляло собой квадратичную форму по отношению только к одному из векторов в разложении (с другим, поглощенным в средний вектор и матрицу дисперсии).


Вывод условного распределения: теперь, когда у нас есть вышеуказанная форма для расстояния Маханалобиса, все остальное легко. У нас есть:

p(y1|y2,μ,Σ)y1p(y1,y2|μ,Σ)=N(y|μ,Σ)y1exp(12(yμ)TΣ1(yμ))=exp(12(y1μ)TΣ1(y1μ))y1N(y1|μ,Σ).

Это устанавливает, что условное распределение также является многомерным нормальным с указанным условным вектором среднего значения и матрицей условной дисперсии.

Бен
источник