В подходе EM-алгоритма мы используем неравенство Дженсена для получения
Все, что я читаю EM, просто сводит это на нет, но я всегда чувствовал себя неловко, не имея объяснения, почему алгоритм EM возникает естественным образом. Я понимаю, что вероятность обычно рассматривается для сложения вместо умножения, но появление в определении \ theta ^ {(k + 1)} кажется мне немотивированным. Почему следует рассматривать \ log, а не другие монотонные функции? По разным причинам я подозреваю, что «значение» или «мотивация», лежащая в основе максимизации ожидания, имеет какое-то объяснение с точки зрения теории информации и достаточной статистики. Если бы было такое объяснение, это было бы гораздо более удовлетворительным, чем просто абстрактный алгоритм.журнал log
источник
Ответы:
EM-алгоритм имеет разные интерпретации и может возникать в разных формах в разных приложениях.
Все начинается с функции правдоподобияp(x|θ) или, что то же самое, логарифмической функции правдоподобия logp(x|θ) мы хотели бы максимизировать. (Обычно мы используем логарифм, поскольку он упрощает вычисления: он строго монотонный, вогнутый и log(ab)=loga+logb .) В идеальном мире значение p зависит только от параметра модели θ , поэтому мы можем искать в пространстве θ и найти тот, который максимизируетp .
Однако во многих интересных реальных приложениях дела обстоят сложнее, потому что наблюдаются не все переменные. Да, мы могли бы непосредственно наблюдатьx , но некоторые другие переменные z являются ненаблюдаемыми. Из-за отсутствующих переменных z мы находимся в некотором роде ситуации "курица и яйцо": без z мы не можем оценить параметр θ а без θ мы не можем сделать вывод, каким может быть значение z .
Это где EM алгоритм вступает в игру. Мы начнем с первоначального предположения параметров моделиθ и получим ожидаемые значения отсутствующих переменных z (т. Е. Шаг E). Когда у нас есть значения z , мы можем максимизировать вероятность относительно параметров θ (то есть шаг М, соответствующий уравнению argmax в постановке задачи). С этим θ мы можем получить новые ожидаемые значения z (еще один шаг E), и так далее, и так далее. Другими словами, на каждом шаге мы принимаем одно из обоих, z и θ , известен. Мы повторяем этот итеративный процесс, пока вероятность больше не может быть увеличена.
Это алгоритм EM в двух словах. Хорошо известно, что вероятность этого никогда не уменьшится во время этого итеративного процесса EM. Но имейте в виду, что алгоритм EM не гарантирует глобального оптимума. Таким образом, это могло бы закончиться локальным оптимумом функции правдоподобия.
Появлениеlog в уравнении θ(k+1) неизбежно, потому что здесь функция, которую вы хотели бы максимизировать, записывается как логарифмическая вероятность.
источник
Вероятность против логарифмической вероятности
Как уже было сказано, вводится с максимальной вероятностью просто потому, что оптимизировать суммы, как правило, проще, чем продукты. Причина, по которой мы не рассматриваем другие монотонные функции, заключается в том, что логарифм - это уникальная функция, обладающая свойством превращать произведения в суммы.log
Другой способ мотивации логарифма заключается в следующем: вместо того, чтобы максимизировать вероятность данных в нашей модели, мы могли бы эквивалентно попытаться минимизировать расхождение Кульбака-Лейблера между распределением данных и распределением модели p ( х ∣ θ ) ,pdata(x) p(x∣θ)
Первый член в правой части является постоянным в параметрах. Если у нас есть выборок из распределения данных (наши точки данных), мы можем приблизить второе слагаемое к средней логарифмической вероятности данных,N
Альтернативный взгляд на ЭМ
Я не уверен, что это будет именно то объяснение, которое вы ищете, но я нашел следующий взгляд на максимизацию ожиданий гораздо более поучительным, чем его мотивация через неравенство Дженсена (подробное описание можно найти в Neal & Hinton (1998). или в книге PRML Криса Бишопа, глава 9.3).
Нетрудно показать, что
для любого . Если мы назовем первый член в правой части F ( q , θ ) , это означает, чтоq(z∣x) F(q,θ)
Поскольку дивергенция KL всегда положительна , является нижней границей логарифмической вероятности для каждого фиксированного q . Теперь EM можно рассматривать как попеременно максимизирующую F относительно q и θ . В частности, путем установки д ( г | х ) = р ( г | х , & thetas ) в E-стадии, мы свести к минимуму расхождение KL на правой стороне , и , таким образом , максимально F .F(q,θ) q F q θ q(z∣x)=p(z∣x,θ) F
источник
Бумага, которую я нашел разъясняющей в отношении максимизации ожидания, представляет собой байесовский метод K-средних как алгоритм «максимизация-ожидание» (pdf) по Welling и Kurihara.
Предположим, у нас есть вероятностная модель с x наблюдениями, z скрытыми случайными величинами и суммой θ параметров. Нам дан набор данных D и мы вынуждены (высшими силами) установить p (p(x,z,θ) x z θ D .p(z,θ|D)
1. Выборка Гиббса
Мы можем аппроксимировать выборкой. Выборка Гиббса дает p ( z , θ | D ) , чередуя:p(z,θ|D) p(z,θ|D)
2. Variational Bayes
Instead, we can try to establish a distributionq(θ) and q(z) and minimize the difference with the distribution we are after p(θ,z|D) . The difference between distributions has a convenient fancy name, the KL-divergence. To minimize KL[q(θ)q(z)||p(θ,z|D)] we update:
3. Expectation-Maximization
To come up with full-fledged probability distributions for bothz and θ might be considered extreme. Why don't we instead consider a point estimate for one of these and keep the other nice and nuanced. In EM the parameter θ is established as the one being unworthy of a full distribution, and set to its MAP (Maximum A Posteriori) value, θ∗ .
4. Maximization-Expectation
If our hidden variablesz are indicator variables, we suddenly have a computationally cheap method to perform inference on the number of clusters. This is in other words: model selection (or automatic relevance detection or imagine another fancy name).
5. Iterated conditional modes
Of course, the poster child of approximate inference is to use point estimates for both the parametersθ as well as the observations z .
To see how Maximization-Expectation plays out I highly recommend the article. In my opinion, the strength of this article is however not the application to ak -means alternative, but this lucid and concise exposition of approximation.
источник
There is a useful optimisation technique underlying the EM algorithm. However, it's usually expressed in the language of probability theory so it's hard to see that at the core is a method that has nothing to do with probability and expectation.
Consider the problem of maximising
Now suppose that thefi play well together in the sense that linear combinations of them give you something easy to optimise. For example, if all of the fi(x) are quadratic in x then a linear combination of the fi(x) will also be quadratic, and hence easy to optimise.
Given this supposition, it'd be cool if, in order to optimiselogg(x)=log∑iexp(fi(x)) we could somehow shuffle the log past the ∑ so it could meet the exp s and eliminate them. Then the fi could play together. But we can't do that.
Let's do the next best thing. We'll make another functionh that is similar to g . And we'll make it out of linear combinations of the fi .
Let's sayx0 is a guess for an optimal value. We'd like to improve this. Let's find another function h that matches g and its derivative at x0 , i.e. g(x0)=h(x0) and g′(x0)=h′(x0) . If you plot a graph of h in a small neighbourhood of x0 it's going to look similar to g .
You can show that
So starting withx0 , we form h(x) and optimise that. Because it's similar to g(x) in the neighbourhood of x0 we hope the optimum of h is similar to the optimum of g. Once you have a new estimate, construct the next h and repeat.
I hope this has motivated the choice ofh . This is exactly the procedure that takes place in EM.
But there's one more important point. Using Jensen's inequality you can show thath(x)≤g(x) . This means that when you optimise h(x) you always get an x that makes g bigger compared to g(x0) . So even though h was motivated by its local similarity to g , it's safe to globally maximise h at each iteration. The hope I mentioned above isn't required.
This also gives a clue to when to use EM: when linear combinations of the arguments to theexp function are easier to optimise. For example when they're quadratic - as happens when working with mixtures of Gaussians. This is particularly relevant to statistics where many of the standard distributions are from exponential families.
источник
As you said, I will not go into technical details. There are quite a few very nice tutorials. One of my favourites are Andrew Ng's lecture notes. Take a look also at the references here.
EM is naturally motivated in mixture models and models with hidden factors in general. Take for example the case of Gaussian mixture models (GMM). Here we model the density of the observations as a weighted sum ofK gaussians:
The point is not using monotonic functions but convex functions. And the reason is the Jensen's inequality which ensures that the estimates of the EM algorithm will improve at every step.
источник