Анализ латентного класса и кластерный анализ - различия в выводах?

30

Каковы различия в выводах, которые можно сделать из анализа скрытого класса (LCA) по сравнению с кластерным анализом? Верно ли, что LCA принимает скрытую переменную, лежащую в основе классов, тогда как кластерный анализ представляет собой эмпирическое описание коррелированных атрибутов из алгоритма кластеризации? Кажется, что в социальных науках, LCA приобрел популярность и считается методологически превосходящим, учитывая, что у него есть формальный критерий значимости хи-квадрат, который кластерный анализ не имеет.

Было бы замечательно, если бы примеры могли быть предложены в форме: «LCA подойдет для этого (но не для кластерного анализа), и для этого подойдет кластерный анализ (но не для скрытого анализа классов).

Благодарность! Брайан

Брайан П
источник
1
Что вы называете inferencesв этом контексте и почему вас интересуют только различия в умозаключениях?
ttnphns
1
@ttnphns Под умозаключениями я подразумеваю содержательную интерпретацию результатов. Я не уверен в последней части вашего вопроса о моем интересе к "только различиям в умозаключениях?" Я не заинтересован в выполнении их соответствующих алгоритмов или основной математики. Мне интересно, как результаты будут интерпретированы.
Брайан П

Ответы:

27

Анализ латентного класса на самом деле является моделью конечных смесей (см. Здесь ). Основное различие между FMM и другими алгоритмами кластеризации заключается в том, что FMM предлагает вам подход «кластеризация на основе модели», при котором кластеры создаются с использованием вероятностной модели, которая описывает распределение ваших данных. Таким образом, вместо того, чтобы находить кластеры с произвольно выбранной мерой расстояния, вы используете модель, которая описывает распределение ваших данных и на основе этой модели вы оцениваете вероятность того, что определенные случаи являются членами определенных скрытых классов. Таким образом, вы можете сказать, что это нисходящий подход (вы начинаете с описания распределения ваших данных), в то время как другие алгоритмы кластеризации являются скорее восходящими (вы обнаруживаете сходство между случаями).

Потому что вы используете статистическую модель для выбора модели данных, и оценка пригодности возможна - вопреки кластеризации. Кроме того, если вы предполагаете, что существует некоторый процесс или «скрытая структура», которая лежит в основе структуры ваших данных, то FMM кажутся подходящим выбором, поскольку они позволяют вам моделировать скрытую структуру, лежащую в основе ваших данных (а не просто искать сходство).

Другое отличие состоит в том, что FMM более гибкие, чем кластеризация. Алгоритмы кластеризации просто выполняют кластеризацию, в то время как существуют модели на основе FMM и LCA, которые

  • позволит вам сделать подтверждающий, межгрупповой анализ,
  • объединить модели теории ответа на предмет (и другие) с LCA,
  • включить ковариаты для прогнозирования скрытого членства в классе,
  • и / или даже внутригрупповые регрессионные модели в регрессии латентного класса ,
  • позволяет моделировать изменения во времени в структуре ваших данных и т. д.

Для большего количества примеров смотрите:

Hagenaars JA & McCutcheon, AL (2009). Прикладной анализ латентного класса. Издательство Кембриджского университета.

и документация пакетов flexmix и poLCA на R, включая следующие документы:

Linzer, DA & Lewis, JB (2011). poLCA: пакет R для анализа скрытых классов политомных переменных. Журнал статистического программного обеспечения, 42 (10), 1-29.

Лейш Ф. (2004). Flexmix: общая структура для моделей конечных смесей и регрессии латентного стекла в R. Journal of Statistical Software, 11 (8), 1-18.

Grün B. & Leisch F. (2008). FlexMix версия 2: конечные смеси с сопутствующими переменными и переменными и постоянными параметрами . Журнал статистического программного обеспечения, 28 (4), 1-35.

Тим
источник
3

Модель скрытого класса (или скрытый профиль, или, в более общем смысле, модель конечной смеси) может рассматриваться как вероятностная модель кластеризации (или неконтролируемая классификация). Цель, как правило, одна и та же - выявить однородные группы внутри большей популяции. Я думаю, что основные различия между моделями скрытых классов и алгоритмическими подходами к кластеризации заключаются в том, что первые, очевидно, поддаются более теоретическим предположениям о природе кластеризации; и поскольку модель скрытого класса является вероятностной, она дает дополнительные альтернативы для оценки соответствия модели с помощью статистики вероятности и лучше отражает / сохраняет неопределенность в классификации.

Вы можете найти некоторые полезные лакомые кусочки в этой теме , а также этот ответ в соответствующем сообщении от chl.

Есть также параллели (на концептуальном уровне) с этим вопросом о PCA против факторного анализа, и этот тоже.

DL Dahly
источник
2

Разница заключается в том, что при анализе скрытого класса используются скрытые данные (которые обычно представляют собой шаблоны ассоциации в элементах) для определения вероятностей элементов в классе. Затем можно сделать выводы, используя максимальную вероятность разделения элементов на классы на основе их характеристик.

Кластерный анализ строит объекты и использует алгоритмы, такие как ближайшие соседи, плотность или иерархия, чтобы определить, к каким классам принадлежит элемент.

В основном, логический вывод о LCA можно рассматривать как «что является наиболее похожим шаблоном, использующим вероятность», а кластерный анализ будет «чем ближе всего, используя расстояние».

ccsv
источник
Можете ли вы уточнить, что означает «вещь» в утверждении о кластерном анализе? Это самая близкая особенность, основанная на измерении расстояния?
Брайан П
вещь будет объектом объекта или какими-либо данными, которые вы вводите с параметрами объекта.
ccsv