Рассмотрим логарифмическую вероятность смешения гауссиан:
Мне было интересно, почему в вычислительном отношении было трудно максимизировать это уравнение напрямую? Я искал либо ясную твердую интуицию о том, почему должно быть очевидно, что это сложно, либо, может быть, более строгое объяснение, почему это сложно. Эта проблема NP-полная или мы просто еще не знаем, как ее решить? Это причина, по которой мы прибегаем к использованию алгоритма EM ( ожидание-максимизация )?
Обозначения:
= тренировочные данные.
= точка данных.
= набор параметров, задающих гауссиан, их средние значения, стандартные отклонения и вероятность генерации точки из каждого кластера / класса / гаусса.
= вероятность генерации точки из кластера / класса / гауссова i.
В дополнение к пунктам Джуампы, позвольте мне сообщить о следующих трудностях:
взято из моей книги .
Дополнительное замечание: без вызова EM-алгоритма можно использовать стандартный алгоритм оптимизации (например, Ньютона-Рафсона) по одному параметру за раз, то есть повторять
если есть параметров и каждый шаг должен увеличивать значение целевой функции , но эта схема в лучшем случае окажется в том же режиме, что и EM-алгоритм.l ( θ | S n )v l ( θ | SN)
источник