Вывод оценок максимального правдоподобия
Предположим, что у нас есть случайных векторов, каждый из которых имеет размер : где каждый случайный вектор может быть интерпретируется как наблюдение (точка данных) через переменных. Если каждый указан как многовариантный гауссовский вектор:р Х ( 1 ) , Х ( 2 ) , . , , , X ( m ) p X ( i )mpX(1),X(2),...,X(m)pX(i)
X(i)∼Np(μ,Σ)
Где параметры неизвестны. Чтобы получить их оценку, мы можем использовать метод максимального правдоподобия и максимизировать функцию логарифмического правдоподобия.μ,Σ
Обратите внимание, что в силу независимости случайных векторов общая плотность данных является произведением отдельных плотностей. , то есть . Взятие логарифма дает функцию правдоподобияΠ м я = 1 ф X ( я ) ( х ( я ) ; М , Е ){X(i),i=1,2,...,m}∏mi=1fX(i)(x(i);μ,Σ)
l(μ,Σ|x(i))=log∏i=1mfX(i)(x(i)|μ,Σ)=log ∏i=1m1(2π)p/2|Σ|1/2exp(−12(x(i)−μ)TΣ−1(x(i)−μ))=∑i=1m(−p2log(2π)−12log|Σ|−12(x(i)−μ)TΣ−1(x(i)−μ))
l(μ,Σ;)=−mp2log(2π)−m2log|Σ|−12∑i=1m(x(i)−μ)TΣ−1(x(i)−μ)
Деривацияμ^
Чтобы взять производную по и приравнять к нулю, мы будем использовать следующий тождество матричного исчисления:μ
wAA∂wTAw∂w=2Aw если
не зависит от и симметричен.wAA
∂∂μl(μ,Σ|x(i))0μ^=∑i=1mΣ−1(μ−x(i))=0Since Σ is positive definite=mμ−∑i=1mx(i)=1m∑i=1mx(i)=x¯
Который часто называют вектором выборки .
ДеривацияΣ^
Вывод MLE для ковариационной матрицы требует больше работы и использования следующих свойств линейной алгебры и исчисления:
- След инвариантен относительно циклических перестановок матричных произведений:tr[ACB]=tr[CAB]=tr[BCA]
- Поскольку является скалярным, мы можем взять его след и получить то же значение:x t A x = t r [ x T A x ] = t r [ x t x A ]xTAxxtAx=tr[xTAx]=tr[xtxA]
- ∂∂Atr[AB]=BT
- ∂∂Alog|A|=A−T
Объединение этих свойств позволяет нам рассчитать
∂∂AxtAx=∂∂Atr[xTxA]=[xxt]T=xTTxT=xxT
Который является внешним произведением вектора с самим собой.x
Теперь мы можем переписать функцию логарифмического правдоподобия и вычислить производную по (примечание постоянно) СΣ−1C
l(μ,Σ|x(i))∂∂Σ−1l(μ,Σ|x(i))=C−m2log|Σ|−12∑i=1m(x(i)−μ)TΣ−1(x(i)−μ)=C+m2log|Σ−1|−12∑i=1mtr[(x(i)−μ)(x(i)−μ)TΣ−1]=m2Σ−12∑i=1m(x(i)−μ)(x(i)−μ)T Since ΣT=Σ
Приравнивая к нулю и решая дляΣ
0Σ^=mΣ−∑i=1m(x(i)−μ)(x(i)−μ)T=1m∑i=1m(x(i)−μ^)(x(i)−μ^)T
источники
Альтернативное доказательство для которое напрямую принимает производную по :Σˆ Σ
Подобрать логарифмическую вероятность, как указано выше: где и мы использовали циклические и линейные свойства . Чтобы вычислить мы сначала заметим, чтоℓ(μ,Σ)===C−m2log|Σ|−12∑i=1mtr[(x(i)−μ)TΣ−1(x(i)−μ)]C−12(mlog|Σ|+∑i=1mtr[(x(i)−μ)(x(i)−μ)TΣ−1])C−12(mlog|Σ|+tr[SμΣ−1]) Sμ=∑mi=1(x(i)−μ)(x(i)−μ)T tr ∂ℓ/∂Σ ∂∂Σlog|Σ|=Σ−T=Σ−1
по четвертому свойству выше. Чтобы взять производную от второго слагаемого, нам понадобится свойство, которое
(из Матрицы поваренной книги , уравнение 63). Применяя это с мы получаем, что
потому что и симметричны. потом
∂∂Xtr(AX−1B)=−(X−1BAX−1)T. B=I ∂∂Σtr[SμΣ−1]=−(Σ−1SμΣ−1)T=−Σ−1SμΣ−1 Σ Sμ ∂∂Σℓ(μ,Σ)∝mΣ−1−Σ−1SμΣ−1.
Установка этого значения в 0 и перестановка дает
Σ =1Σˆ=1mSμ.
Этот подход более сложен, чем стандартный, использующий производные по , и требует более сложной идентификации трассы. Я нашел это полезным только потому, что в настоящее время мне нужно взять производные от модифицированной функции правдоподобия, для которой гораздо сложнее использовать, чем .Λ=Σ−1 ∂/∂Σ−1 ∂/∂Σ
источник