Оптимальное количество компонентов в гауссовой смеси

10

Таким образом, получение «идеи» об оптимальном количестве кластеров в k-средних хорошо документировано. Я нашел статью о том, как сделать это в гауссовых смесях, но не уверен, что меня это убедило, я не очень хорошо понимаю. Есть ли ... более мягкий способ сделать это?

JEquihua
источник
4
Не могли бы вы привести статью или хотя бы наметить методологию, которую она предлагает? Трудно придумать «более мягкий» способ сделать это, если мы не знаем базовый уровень :)
jbowman
1
Джефф МакЛахлан и другие написали книги о смешанных дистрибутивах. Я уверен, что они включают подходы к определению количества компонентов в смеси. Возможно, вы могли бы посмотреть там. Я согласен с jbowman в том, что избавиться от путаницы лучше всего, если вы укажете нам, что вас смущает.
Майкл Р. Черник
Оценка оптимального количества гауссовых смесей, основанная на инкрементном k-среднем для идентификации говорящего ... Это название, которое можно загрузить бесплатно. Это в основном увеличивает количество кластеров на 1, пока вы не увидите, что два кластера становятся зависимыми друг от друга, что-то вроде этого. Спасибо!
JEquihua
Почему бы просто не выбрать количество компонентов, которое максимизирует перекрестную оценку вероятности? Это вычислительно дорого, но в большинстве случаев для выбора модели сложно пройти перекрестную проверку, если не требуется большого количества параметров для настройки.
Дикран Сумчатый
Не могли бы вы немного объяснить, какова оценка перекрестной проверки вероятности? Я не знаю о концепции. Спасибо.
JEquihua

Ответы:

5

Просто расширение комментария Дикрана Марсупиала (перекрестная проверка). Основная идея состоит в том, чтобы каким-то образом разделить ваши данные на обучающие и проверочные наборы, пробовать различное количество компонентов и выбирать лучшие, основываясь на соответствующих значениях вероятности обучения и проверки.

Вероятность для GMM просто по определению, где - количество компонентов (кластеров) и , , - параметры модели. Изменяя значение вы можете построить график вероятности GMM для обучающих и проверочных наборов, как показано ниже.п(Икс|π,μ,Σ)знак равноΣКπКN(Икс|μК,ΣК)КπμΣК

введите описание изображения здесь

В этом примере должно быть очевидно, что оптимальное количество компонентов составляет около 20. Это хорошее видео об этом на Coursera, и именно там я получил вышеупомянутое изображение.


Другим обычно используемым методом является байесовский информационный критерий (BIC) : где - вероятность, K - количество параметров и - количество точек данных. Это можно понимать как добавление штрафа за количество параметров к логарифмической вероятности.

ВяСзнак равно-2журнал(L)+Кжурнал(N)
LN
dontloo
источник