Решение найдено:
Итак, чтобы сформулировать вопрос, почему Mclust
функция по умолчанию использует модель с наибольшим значением BIC как «лучшую» модель?
Отличный вопрос! Позвольте мне дать вам длинный ответ на этот вопрос.
TL; DR : значения BIC являются приближением к интегрированной (не максимальной) вероятности, и вы хотите модель с наибольшим интегрированным правдоподобием (коэффициент Байеса), поэтому вы выбираете модель с наибольшим значением BIC.
Длинный ответ : Цель использования кластеризации на основе моделей вместо эвристических кластерных подходов, таких как k-средних и иерархической (агломерационной) кластеризации, состоит в том, чтобы предоставить более формальный и интуитивно понятный подход к сравнению и выбору подходящей кластерной модели для ваших данных.
Mclust использует методы кластеризации, основанные на вероятностных моделях, гауссовых смешанных моделях. Использование вероятностных моделей позволяет разрабатывать модельные подходы для сравнения различных кластерных моделей и размеров. См. * Методы классификации на основе моделей: использование программного обеспечения mclust в Chemometrics * ( https://www.jstatsoft.org/article/view/v018i06 ) для получения дополнительной информации.
Как уже упоминалось выше, авторы утверждают, что «лучшая» модель - это модель с наибольшим значением BIC. Вот еще один пример из расширенного программного обеспечения для кластеризации на основе моделей, оценки плотности и анализа дискриминанта: MCLUST ( https://www.stat.washington.edu/raftery/Research/PDF/fraley2003.pdf ):
Информационный критерий Байса или BIC (?) - это значение максимального логарифмического правдоподобия со штрафом за количество параметров в модели, и позволяет сравнивать модели с различными параметризациями и / или различными числами кластеров. В целом, чем больше значение BIC, тем больше доказательств для модели и количества кластеров (см., Например, Fraley and Raftery 2002a).
Выбор модели : теперь, когда к кластерам прикреплена вероятностная модель, вы можете использовать более сложные инструменты для сравнения нескольких кластерных моделей, используя байесовский выбор модели с помощью байесовских факторов.
В их статье Сколько кластеров? Какой метод кластеризации? Ответы с помощью модельного кластерного анализа ( http://www.stat.washington.edu/raftery/Research/PDF/fraley1998.pdf )
Байесовский фактор является последним коэффициентом для одной модели против другой, предполагая, что ни один не является предпочтительным априори. Banfield и Raftery [2] использовали эвристическое приближение для удвоения логарифмического байесовского коэффициента, называемого «AWE», для определения количества кластеров в иерархической кластеризации на основе вероятности классификации. Когда для определения максимальной вероятности смеси используется ЭМ, применяется более надежное приближение к двойному логарифмическому коэффициенту Байеса, называемое БИК (Шварц [32]):
2log(p(x|M))+constant≈2lM(x,θ^)−mmlog(n)≡BIC
где - (интегрированная) вероятность данных для модели M, - логарифмическая правдоподобие смеси для модели, а m_M - число независимых параметров. быть оцененным в модели. Количество кластеров не считается независимым параметром для целей расчета BIC. Если каждая модель в равной степени likeli , то пропорциональны задней вероятность того, что данные , соответствующий образец . Соответственно, чем больше значение BIC, тем больше доказательств для модели.p(x|M)lM(x,θ^)a priorip(x|M)M
Итак, в итоге, BIC не следует минимизировать. Человек, использующий этот основанный на модели подход кластеризации, должен искать модель, которая максимизирует BIC, поскольку она приближает байесовский фактор с максимальной интегрированной вероятностью.
Это последнее утверждение также имеет ссылку:
Banfield, JD и Raftery, AE (1993) Основанная на модели гауссова и негауссова кластеризация. Биометрия, 49, 803– 821.
РЕДАКТИРОВАТЬ : на основе обмена электронной почтой,
Как примечание, всегда проверяйте, как определен BIC. Иногда, например, в большинстве контекстов регрессии (где традиционно для оценки параметров минимизируется статистика, например, остаточная сумма квадратов, отклонение и т. Д.), BIC вычисляется как -2 * loglik + npar * log (n), т.е. наоборот что используется в mclust. Понятно, что в этом случае BIC должен быть сведен к минимуму.
Общее определение BIC:
; mclust не включает отрицательный компонент.BIC=−2×ln(L(θ|x))+k×ln(n)