В чем разница между алгоритмами EM (ожидание максимизации) и градиентного подъема (или спуска)? Есть ли условия, при которых они эквивалентны?
В чем разница между алгоритмами EM (ожидание максимизации) и градиентного подъема (или спуска)? Есть ли условия, при которых они эквивалентны?
От:
Сюй Л. и Джордан М.И. (1996). О свойствах сходимости алгоритма ЭМ для гауссовых смесей . Нейронные вычисления 2: 129-151.
Аннотация:
Мы показываем, что шаг ЭМ в пространстве параметров получается из градиента через проекционную матрицу P, и мы предоставляем явное выражение для матрицы.
Страница 2
В частности, мы показываем, что шаг ЭМ можно получить, предварительно умножив градиент на положительную матрицу денита. Мы предоставляем явное выражение для матрицы ...
Страница 3
То есть, алгоритм EM можно рассматривать как алгоритм подъема градиента переменной метрики ...
Это означает, что в статье приводятся явные преобразования алгоритма EM в градиент-восхождение, ньютон, квазиньютон.
Из википедии
Существуют и другие методы нахождения оценок максимального правдоподобия, такие как градиентный спуск, сопряженный градиент или вариации метода Гаусса – Ньютона. В отличие от EM, такие способы обычно требуют оценки первой и / или второй производных функции правдоподобия.
Нет, они не эквивалентны. В частности, сходимость ЭМ значительно медленнее.
Если вас интересует точка зрения оптимизации на EM, в этой статье вы увидите, что алгоритм EM является частным случаем более широкого класса алгоритмов (алгоритмы проксимальной точки).
источник