Выбор модели Mclust

11

Пакет R mclustиспользует BIC в качестве критерия выбора модели кластера. Насколько я понимаю, модель с самым низким BIC следует выбирать среди других моделей (если вы заботитесь только о BIC). Однако, когда значения BIC все отрицательные, по Mclustумолчанию используется модель с самым высоким значением BIC. Мое общее понимание от различных испытаний - то, что mclustидентифицирует "лучшие" модели как те, которые имеют .max{BICi}

Я пытаюсь понять, почему авторы приняли это решение. Это показано на сайте CRAN: https://cran.r-project.org/web/packages/mclust/vignettes/mclust.html.

Кроме того, авторы mclustпакетов отмечают это в своей статье Методы классификации на основе моделей: Использование программного обеспечения mclust в Chemometrics на стр. 5.

«Лучшей» моделью считается та, которая имеет самый высокий BIC среди встроенных моделей.

Кто-нибудь может пролить свет на этот вопрос? Если нижний BIC всегда лучше, почему авторы выбирают не модель с самым низким BIC, а модель с наименьшим абсолютным BIC? Если возможно, предоставьте ссылки.

Джон
источник

Ответы:

10

Решение найдено:

Итак, чтобы сформулировать вопрос, почему Mclustфункция по умолчанию использует модель с наибольшим значением BIC как «лучшую» модель?

Отличный вопрос! Позвольте мне дать вам длинный ответ на этот вопрос.

TL; DR : значения BIC являются приближением к интегрированной (не максимальной) вероятности, и вы хотите модель с наибольшим интегрированным правдоподобием (коэффициент Байеса), поэтому вы выбираете модель с наибольшим значением BIC.

Длинный ответ : Цель использования кластеризации на основе моделей вместо эвристических кластерных подходов, таких как k-средних и иерархической (агломерационной) кластеризации, состоит в том, чтобы предоставить более формальный и интуитивно понятный подход к сравнению и выбору подходящей кластерной модели для ваших данных.

Mclust использует методы кластеризации, основанные на вероятностных моделях, гауссовых смешанных моделях. Использование вероятностных моделей позволяет разрабатывать модельные подходы для сравнения различных кластерных моделей и размеров. См. * Методы классификации на основе моделей: использование программного обеспечения mclust в Chemometrics * ( https://www.jstatsoft.org/article/view/v018i06 ) для получения дополнительной информации.

Как уже упоминалось выше, авторы утверждают, что «лучшая» модель - это модель с наибольшим значением BIC. Вот еще один пример из расширенного программного обеспечения для кластеризации на основе моделей, оценки плотности и анализа дискриминанта: MCLUST ( https://www.stat.washington.edu/raftery/Research/PDF/fraley2003.pdf ):

Информационный критерий Байса или BIC (?) - это значение максимального логарифмического правдоподобия со штрафом за количество параметров в модели, и позволяет сравнивать модели с различными параметризациями и / или различными числами кластеров. В целом, чем больше значение BIC, тем больше доказательств для модели и количества кластеров (см., Например, Fraley and Raftery 2002a).

Выбор модели : теперь, когда к кластерам прикреплена вероятностная модель, вы можете использовать более сложные инструменты для сравнения нескольких кластерных моделей, используя байесовский выбор модели с помощью байесовских факторов.

В их статье Сколько кластеров? Какой метод кластеризации? Ответы с помощью модельного кластерного анализа ( http://www.stat.washington.edu/raftery/Research/PDF/fraley1998.pdf )

Байесовский фактор является последним коэффициентом для одной модели против другой, предполагая, что ни один не является предпочтительным априори. Banfield и Raftery [2] использовали эвристическое приближение для удвоения логарифмического байесовского коэффициента, называемого «AWE», для определения количества кластеров в иерархической кластеризации на основе вероятности классификации. Когда для определения максимальной вероятности смеси используется ЭМ, применяется более надежное приближение к двойному логарифмическому коэффициенту Байеса, называемое БИК (Шварц [32]):

2log(p(x|M))+constant2lM(x,θ^)mmlog(n)BIC

где - (интегрированная) вероятность данных для модели M, - логарифмическая правдоподобие смеси для модели, а m_M - число независимых параметров. быть оцененным в модели. Количество кластеров не считается независимым параметром для целей расчета BIC. Если каждая модель в равной степени likeli , то пропорциональны задней вероятность того, что данные , соответствующий образец . Соответственно, чем больше значение BIC, тем больше доказательств для модели.p(x|M)lM(x,θ^)a priorip(x|M)M

Итак, в итоге, BIC не следует минимизировать. Человек, использующий этот основанный на модели подход кластеризации, должен искать модель, которая максимизирует BIC, поскольку она приближает байесовский фактор с максимальной интегрированной вероятностью.

Это последнее утверждение также имеет ссылку:

Banfield, JD и Raftery, AE (1993) Основанная на модели гауссова и негауссова кластеризация. Биометрия, 49, 803– 821.

РЕДАКТИРОВАТЬ : на основе обмена электронной почтой,

Как примечание, всегда проверяйте, как определен BIC. Иногда, например, в большинстве контекстов регрессии (где традиционно для оценки параметров минимизируется статистика, например, остаточная сумма квадратов, отклонение и т. Д.), BIC вычисляется как -2 * loglik + npar * log (n), т.е. наоборот что используется в mclust. Понятно, что в этом случае BIC должен быть сведен к минимуму.

Общее определение BIC: ; mclust не включает отрицательный компонент.BIC=2×ln(L(θ|x))+k×ln(n)

Джон
источник
1
Не уверен, с какой версией Mclust была связана переписка по этому ответу. Версия 4 Mclust использует отрицательный компонент BIC и, следовательно, должна быть максимально увеличена. Надеюсь, что это может быть полезно для людей, пытающихся выяснить, следует ли делать максимизацию или минимизацию.
Расика
Спасибо за указание на это, я обновлю этот вопрос, чтобы он имел смысл. Я мог бы также заглянуть в документацию, чтобы узнать, почему они решили внести это изменение через столько лет
Джон