Оценщики максимального правдоподобия - многомерный гауссов

20

контекст

Многомерный гауссов часто появляется в машинном обучении, и следующие результаты используются во многих книгах и курсах по ML без дериваций.

Данные даны в виде матрицы измерений , если мы предположим, что данные следуют вариативному гауссовскому распределению с параметрами mean ( ) и ковариационной матрицей ( ) Оценки максимального правдоподобия определяются как: m × p p μ p × 1 Σ p × pXm×ppμp×1Σp×p

  • μ^=1mi=1mx(i)=x¯
  • Σ^=1mi=1m(x(i)μ^)(x(i)μ^)T

Я понимаю, что знание многомерного гауссовского языка является обязательным условием для многих курсов ML, но было бы полезно получить полный вывод в отдельном ответе раз и навсегда, так как я чувствую, что многие самообучающиеся люди бегают вокруг статистики. Веб-сайты stackexchange и math.stackexchange ищут ответы.


Вопрос

Каков полный вывод оценок максимального правдоподобия для многомерного гауссова


Примеры:

Эти лекционные заметки (стр. 11) о линейном дискриминантном анализе или те, которые используют результаты и предполагают наличие предшествующих знаний.

Есть также несколько постов, на которые частично ответили или закрыли:

Ксавье Бурре Сикотт
источник

Ответы:

24

Вывод оценок максимального правдоподобия

Предположим, что у нас есть случайных векторов, каждый из которых имеет размер : где каждый случайный вектор может быть интерпретируется как наблюдение (точка данных) через переменных. Если каждый указан как многовариантный гауссовский вектор:р Х ( 1 ) , Х ( 2 ) , . , , , X ( m ) p X ( i )mpX(1),X(2),...,X(m)pX(i)

X(i)Np(μ,Σ)

Где параметры неизвестны. Чтобы получить их оценку, мы можем использовать метод максимального правдоподобия и максимизировать функцию логарифмического правдоподобия.μ,Σ

Обратите внимание, что в силу независимости случайных векторов общая плотность данных является произведением отдельных плотностей. , то есть . Взятие логарифма дает функцию правдоподобияΠ м я = 1 ф X ( я ) ( х ( я ) ; М , Е ){X(i),i=1,2,...,m}i=1mfX(i)(x(i);μ,Σ)

l(μ,Σ|x(i))=logi=1mfX(i)(x(i)|μ,Σ)=log i=1m1(2π)p/2|Σ|1/2exp(12(x(i)μ)TΣ1(x(i)μ))=i=1m(p2log(2π)12log|Σ|12(x(i)μ)TΣ1(x(i)μ))

l(μ,Σ;)=mp2log(2π)m2log|Σ|12i=1m(x(i)μ)TΣ1(x(i)μ)

Деривацияμ^

Чтобы взять производную по и приравнять к нулю, мы будем использовать следующий тождество матричного исчисления:μ

wAAwTAww=2Aw если не зависит от и симметричен.wAA

μl(μ,Σ|x(i))=i=1mΣ1(μx(i))=0Since Σ is positive definite0=mμi=1mx(i)μ^=1mi=1mx(i)=x¯

Который часто называют вектором выборки .

ДеривацияΣ^

Вывод MLE для ковариационной матрицы требует больше работы и использования следующих свойств линейной алгебры и исчисления:

  • След инвариантен относительно циклических перестановок матричных произведений:tr[ACB]=tr[CAB]=tr[BCA]
  • Поскольку является скалярным, мы можем взять его след и получить то же значение:x t A x = t r [ x T A x ] = t r [ x t x A ]xTAxxtAx=tr[xTAx]=tr[xtxA]
  • Atr[AB]=BT
  • Alog|A|=AT

Объединение этих свойств позволяет нам рассчитать

AxtAx=Atr[xTxA]=[xxt]T=xTTxT=xxT

Который является внешним произведением вектора с самим собой.x

Теперь мы можем переписать функцию логарифмического правдоподобия и вычислить производную по (примечание постоянно) СΣ1C

l(μ,Σ|x(i))=Cm2log|Σ|12i=1m(x(i)μ)TΣ1(x(i)μ)=C+m2log|Σ1|12i=1mtr[(x(i)μ)(x(i)μ)TΣ1]Σ1l(μ,Σ|x(i))=m2Σ12i=1m(x(i)μ)(x(i)μ)T  Since ΣT=Σ

Приравнивая к нулю и решая дляΣ

0=mΣi=1m(x(i)μ)(x(i)μ)TΣ^=1mi=1m(x(i)μ^)(x(i)μ^)T

источники

Ксавье Бурре Сикотт
источник
Альтернативные доказательства, более компактные формы или интуитивное толкование приветствуются!
Ксавье Бурре Сикотт
В выводе для , почему должен быть положительно определенным? Достаточно ли кажется, что обратима? Для обратимой матрицы , только тогда , когда ? Σ Σ A A x = 0 x = 0μΣΣAAx=0x=0
Том Беннетт
Чтобы уточнить, - это матрица которая может иметь конечные диагональные и недиагональные компоненты, указывающие на корреляцию между векторами, верно? Если это так, то в каком смысле эти векторы независимы? Кроме того, почему совместная функция вероятности равна вероятности? Разве плотность соединения, , не должна быть равна вероятности, умноженной на предыдущую, то есть ? m × m f ( x , y ) f ( x | y ) f ( y )Σm×mf(x,y)f(x|y)f(y)
Mathews24
1
@ TomBennett сигма-матрица положительно определена по определению - см. Stats.stackexchange.com/questions/52976/… для доказательства. Тождество матричного исчисления требует, чтобы матрица была симметричной, а не положительно определенной. Но поскольку положительно определенные матрицы всегда симметричны, это работает
Ксавье Бурре Сикотт
1
Да, действительно - независимость между наблюдениями позволяет получить вероятность - формулировка может быть недостаточно ясной, - это многовариантная версия вероятности.
Предшествующий по-
5

Альтернативное доказательство для которое напрямую принимает производную по :Σ^Σ

Подобрать логарифмическую вероятность, как указано выше: где и мы использовали циклические и линейные свойства . Чтобы вычислить мы сначала заметим, что

(μ,Σ)=Cm2log|Σ|12i=1mtr[(x(i)μ)TΣ1(x(i)μ)]=C12(mlog|Σ|+i=1mtr[(x(i)μ)(x(i)μ)TΣ1])=C12(mlog|Σ|+tr[SμΣ1])
Sμ=i=1m(x(i)μ)(x(i)μ)Ttr/Σ
Σlog|Σ|=ΣT=Σ1
по четвертому свойству выше. Чтобы взять производную от второго слагаемого, нам понадобится свойство, которое (из Матрицы поваренной книги , уравнение 63). Применяя это с мы получаем, что потому что и симметричны. потом
Xtr(AX1B)=(X1BAX1)T.
B=I
Σtr[SμΣ1]=(Σ1SμΣ1)T=Σ1SμΣ1
ΣSμ
Σ(μ,Σ)mΣ1Σ1SμΣ1.
Установка этого значения в 0 и перестановка дает Σ =1
Σ^=1mSμ.

Этот подход более сложен, чем стандартный, использующий производные по , и требует более сложной идентификации трассы. Я нашел это полезным только потому, что в настоящее время мне нужно взять производные от модифицированной функции правдоподобия, для которой гораздо сложнее использовать, чем .Λ=Σ1/Σ1/Σ

Эрик Кейтли
источник