Каковы различия в выводах, которые можно сделать из анализа скрытого класса (LCA) по сравнению с кластерным анализом? Верно ли, что LCA принимает скрытую переменную, лежащую в основе классов, тогда как кластерный анализ представляет собой эмпирическое описание коррелированных атрибутов из алгоритма кластеризации? Кажется, что в социальных науках, LCA приобрел популярность и считается методологически превосходящим, учитывая, что у него есть формальный критерий значимости хи-квадрат, который кластерный анализ не имеет.
Было бы замечательно, если бы примеры могли быть предложены в форме: «LCA подойдет для этого (но не для кластерного анализа), и для этого подойдет кластерный анализ (но не для скрытого анализа классов).
Благодарность! Брайан
clustering
latent-variable
latent-class
Брайан П
источник
источник
inferences
в этом контексте и почему вас интересуют только различия в умозаключениях?Ответы:
Анализ латентного класса на самом деле является моделью конечных смесей (см. Здесь ). Основное различие между FMM и другими алгоритмами кластеризации заключается в том, что FMM предлагает вам подход «кластеризация на основе модели», при котором кластеры создаются с использованием вероятностной модели, которая описывает распределение ваших данных. Таким образом, вместо того, чтобы находить кластеры с произвольно выбранной мерой расстояния, вы используете модель, которая описывает распределение ваших данных и на основе этой модели вы оцениваете вероятность того, что определенные случаи являются членами определенных скрытых классов. Таким образом, вы можете сказать, что это нисходящий подход (вы начинаете с описания распределения ваших данных), в то время как другие алгоритмы кластеризации являются скорее восходящими (вы обнаруживаете сходство между случаями).
Потому что вы используете статистическую модель для выбора модели данных, и оценка пригодности возможна - вопреки кластеризации. Кроме того, если вы предполагаете, что существует некоторый процесс или «скрытая структура», которая лежит в основе структуры ваших данных, то FMM кажутся подходящим выбором, поскольку они позволяют вам моделировать скрытую структуру, лежащую в основе ваших данных (а не просто искать сходство).
Другое отличие состоит в том, что FMM более гибкие, чем кластеризация. Алгоритмы кластеризации просто выполняют кластеризацию, в то время как существуют модели на основе FMM и LCA, которые
Для большего количества примеров смотрите:
и документация пакетов flexmix и poLCA на R, включая следующие документы:
источник
Модель скрытого класса (или скрытый профиль, или, в более общем смысле, модель конечной смеси) может рассматриваться как вероятностная модель кластеризации (или неконтролируемая классификация). Цель, как правило, одна и та же - выявить однородные группы внутри большей популяции. Я думаю, что основные различия между моделями скрытых классов и алгоритмическими подходами к кластеризации заключаются в том, что первые, очевидно, поддаются более теоретическим предположениям о природе кластеризации; и поскольку модель скрытого класса является вероятностной, она дает дополнительные альтернативы для оценки соответствия модели с помощью статистики вероятности и лучше отражает / сохраняет неопределенность в классификации.
Вы можете найти некоторые полезные лакомые кусочки в этой теме , а также этот ответ в соответствующем сообщении от chl.
Есть также параллели (на концептуальном уровне) с этим вопросом о PCA против факторного анализа, и этот тоже.
источник
Разница заключается в том, что при анализе скрытого класса используются скрытые данные (которые обычно представляют собой шаблоны ассоциации в элементах) для определения вероятностей элементов в классе. Затем можно сделать выводы, используя максимальную вероятность разделения элементов на классы на основе их характеристик.
Кластерный анализ строит объекты и использует алгоритмы, такие как ближайшие соседи, плотность или иерархия, чтобы определить, к каким классам принадлежит элемент.
В основном, логический вывод о LCA можно рассматривать как «что является наиболее похожим шаблоном, использующим вероятность», а кластерный анализ будет «чем ближе всего, используя расстояние».
источник