Могут ли быть кластеры с категориальными данными без связанных переменных?

19

Пытаясь объяснить кластерный анализ, люди часто неправильно понимают процесс как связанный с тем, связаны ли переменные. Один из способов избавить людей от этой путаницы - это заговор, подобный этому:

введите описание изображения здесь

Это ясно показывает разницу между вопросом о наличии кластеров и вопросом о том, связаны ли переменные. Однако это только иллюстрирует различие для непрерывных данных. У меня возникают проблемы при мысли об аналоге с категориальными данными:

ID  property.A  property.B
1   yes         yes
2   yes         yes
3   yes         yes
4   yes         yes
5   no          no
6   no          no
7   no          no
8   no          no

Мы можем видеть, что есть два четких кластера: люди с обоими свойствами A и B и те, у кого нет ни одного. Однако, если мы посмотрим на переменные (например, с помощью критерия хи-квадрат), они четко связаны:

tab
#      B
# A     yes no
#   yes   4  0
#   no    0  4
chisq.test(tab)
# X-squared = 4.5, df = 1, p-value = 0.03389

Я нахожусь в замешательстве из-за того, как построить пример с категориальными данными, который аналогичен тому с непрерывными данными выше. Можно ли даже иметь кластеры в чисто категориальных данных без привязки переменных? Что если переменные имеют более двух уровней или если у вас больше переменных? Если кластеризация наблюдений обязательно влечет за собой взаимосвязи между переменными и наоборот, означает ли это, что кластеризация на самом деле не стоит делать, когда у вас есть только категорические данные (т. Е. Стоит ли вместо этого просто анализировать переменные)?


Обновление: я упустил многое из первоначального вопроса, потому что хотел сосредоточиться на идее, что можно создать простой пример, который сразу же станет интуитивно понятным даже для человека, который в основном не знаком с кластерным анализом. Тем не менее, я признаю, что большая кластеризация зависит от выбора расстояний, алгоритмов и т. Д. Это может помочь, если я укажу больше.

Я признаю, что корреляция Пирсона действительно подходит только для непрерывных данных. Для категориальных данных мы могли бы рассмотреть критерий хи-квадрат (для таблицы двусторонних сопряжений) или логарифмическую модель (для таблиц многопользовательских случайностей) как способ оценки независимости категориальных переменных.

Для алгоритма мы могли бы представить себе использование k-medoids / PAM, которое может применяться как к непрерывной ситуации, так и к категориальным данным. (Обратите внимание, что часть непрерывного примера состоит в том, что любой разумный алгоритм кластеризации должен иметь возможность обнаруживать эти кластеры, и если нет, то можно создать более экстремальный пример.)

Относительно концепции расстояния. Я предположил Евклидово для непрерывного примера, потому что это было бы самым основным для наивного зрителя. Я полагаю, что расстояние, аналогичное для категориальных данных (в том смысле, что оно будет наиболее интуитивно понятным), будет простым сопоставлением. Тем не менее, я открыт для обсуждения других расстояний, если это приводит к решению или просто интересной дискуссии.

Gung - Восстановить Монику
источник
2
Интересно , если у нас есть что - то вроде кластеров в категориальных данных на всех . Это не так, как будто дисперсия между кластерами будет больше, чем внутри кластеров, или может говорить о разнице в плотности между кластерами. Таким образом, если наиболее близкие совпадения являются частыми наборами элементов, то для формирования кластеров необходимо связать переменные.
Anony-Mousse
@ Anony-Mousse, это интересно. Почему бы не развить это в ответ? Кстати, я могу изобразить кластеры, которые реально существуют (например, в скрытых непрерывных переменных, которые приводят к разным вероятностям для разных уровней номинальных переменных), но я подозреваю, что это не то, что вы имели в виду.
gung - Восстановить Монику
Вы можете преобразовать категориальное распределение в вектор, компоненты которого являются нормализованными частотами. Тогда евклидова метрика может быть применена. Хотя это не единственный вариант: math.umn.edu/~garrett/m/fun/notes_2012-13/02_spaces_fcns.pdf и en.m.wikipedia.org/wiki/Normed_vector_space
@ttnphns, вы, кажется, добавили [data-association]тег. Я не уверен, что он должен указывать, и у него нет руководства по выдержке / использованию. Нам действительно нужен этот тег? Похоже, хороший кандидат на удаление. Если мы действительно нуждаемся в этом в резюме, и вы знаете, каким он должен быть, не могли бы вы хотя бы добавить отрывок для него?
gung - Восстановить Монику
@ gung, я тоже не совсем понимаю, на что может ссылаться этот тег. Я добавил его из-за темы вопроса «связь / корреляция между атрибутами». Вы можете удалить тег из Q или вообще. С другой стороны, пришло время (я думаю) переосмыслить наши теги, охватывающие все поле корреляции / ассоциации. Например, следует ли сохранять «корреляцию» только для корреляции Пирсона? Должны ли мы создать новый тег «ассоциация переменных» (вместо «ассоциация данных»)?
ttnphns

Ответы:

11

Рассмотрим случай чистого кластера с некоррелированными переменными масштаба, такими как изображение в верхнем правом углу вопроса. И классифицировать свои данные.

введите описание изображения здесь

Мы разделили диапазон шкалы обеих переменных X и Y на 3 ячейки, которые теперь мы будем рассматривать как категориальные метки. Более того, мы объявим их номинальными, а не порядковыми, потому что задаваемый вопрос неявно и в первую очередь касается качественных данных. Размер пятен частота в ячейке частота кросс-таблицы; все случаи в одной и той же ячейке считаются идентичными.

Интуитивно и в большинстве случаев «кластеры» определяются как сгустки точек данных, разделенных разреженными областями в «пространстве» данных. Это было первоначально с данными масштаба, и это остается тем же самым впечатлением в перекрестном табулировании категоризированных данных. X и Y теперь категоричны, но они все еще выглядят некоррелированными: ассоциация хи-квадрат очень близка к нулю. И кластеры там.

Но напомним, что мы имеем дело с номинальными категориями, порядок которых в таблице произвольный. Мы можем переупорядочивать целые строки и / или столбцы по своему усмотрению, не влияя на наблюдаемое значение хи-квадрат. Делать переупорядочение ...

введите описание изображения здесь

... чтобы встретить, что группы просто исчезли. Четыре ячейки, a1, a3, c1 и c3, могут быть объединены в один кластер. Так что нет, у нас действительно нет кластеров в категориальных данных.

Случаи клеток a1 и c3 (или также a3 и c1) совершенно не похожи друг на друга: они не имеют одинаковых признаков. Чтобы побудить кластеры в наших данных - a1 и c3 сформировать кластеры - мы должны до некоторой степени опустошить смешивающие ячейки a3 и c1, отбросив эти случаи из набора данных.

введите описание изображения здесь

Теперь кластеры существуют. Но в то же время мы потеряли некоррелированность. Диагональная структура появляется в сигналах таблицы , которые х-взгляд статистика получила далеко от нуля.

Жалость. Попробуем сохранить некоррелированность и более или менее четкие кластеры одновременно. Например, мы можем решить достаточно опустошить только ячейку a3, а затем рассматривать a1 + c1 как кластер, противостоящий кластеру c3:

введите описание изображения здесь

Эта операция не принесла хи-квадрат далеко от нуля ...

[Indeed, table such as for example
 6   6   1
 6   6   1
 1   1   0
retains about the same very low chi-square association after
dividing 2nd column by 3 and multiplying 2nd row by 3, which gives
 6   2   1
18   6   3
 1  1/3  0
Cell (1,2) got thrice lower frequency. We had, however, to upheave
cell (2,1) frequency thrice, to keep Chi-sq almost as before.]

... но ситуация с кластерами запутана. Кластер a1 + c1 содержит случаи, которые частично идентичны, частично полуразличны. То, что кластер является относительно низкооднородным, само по себе не является препятствием для четкой кластерной структуры в наборе данных. Однако проблема с нашими категориальными данными состоит в том, что кластер a1 + c1 ничуть не лучше кластера c1 + c3, его симметричного аналога. Это означает, что кластерное решение нестабильно - оно будет зависеть от порядка дел в наборе данных. Нестабильное решение, даже если оно относительно «четко сгруппировано», является плохим решением, ненадежным.

Единственный способ преодолеть проблему и сделать решение ясным и стабильным - отсоединить ячейку c3 от ячейки c1, переместив ее данные ниже в ячейку b3 (или в b2).

введите описание изображения здесь

Таким образом, у нас есть четкие кластеры a1 + c1 против b3. Но посмотрите, здесь снова появляется диагональный паттерн - и хи-квадрат таблицы выходит за рамки нуля.

Заключение . Невозможно иметь две неассоциированные номинальные переменные хи-квадрат и хорошие кластеры случаев данных одновременно. Чистые и стабильные кластеры подразумевают ассоциацию переменных.

Также ясно, что если ассоциация присутствует - т.е. диагональный шаблон существует или достижим путем переупорядочения - то кластеры должны существовать. Это связано с тем, что природа категориальных данных («все или ничего») не допускает полутонов и граничных условий, поэтому картинка, подобная нижнему левому краю вопроса ОП, не может появиться с категориальными номинальными данными.

Я предполагаю , что , как мы получаем все больше и больше номинальных переменных (вместо двух) , которые являются bivariately хи-квадрат не связаны, мы приближаемся к возможности иметь кластеры. Но нулевой многовариантный хи-квадрат, я ожидаю, все равно будет несовместим с кластерами. Это еще должно быть показано (не я или не на этот раз).


Наконец, замечание к ответу @ Bey (aka user75138), которое я частично поддержал. Я прокомментировал это своим согласием с тем, что сначала нужно определиться с метрикой расстояния и мерой ассоциации, прежде чем он сможет поставить вопрос «независима ли переменная ассоциация от тематических кластеров?». Это потому, что не существует ни универсальной меры ассоциации, ни универсального статистического определения кластеров. Я также добавил бы, что он также должен выбрать метод кластеризации. Различные методы кластеризации по-разному определяют, к каким «кластерам» они стремятся. Таким образом, все утверждение может быть правдой.

Тем не менее, слабость такого изречения в том, что оно слишком широкое. Следует попытаться конкретно показать, открывает ли место выбор метрики расстояния / метода измерения / кластера связи расстояние для согласования некоррелированности с кластеризацией для номинальных данных. В частности, он должен иметь в виду, что не все многочисленные коэффициенты близости для двоичных данных имеют смысл с номинальными данными, поскольку для номинальных данных «в обоих случаях отсутствует этот атрибут» никогда не может быть основанием для их сходства.


Обновление , сообщая о моих результатах моделирования.

0,1

р

Результаты обычно подтверждают рассуждения, приведенные выше в ответе. Там никогда не было очень четких кластеров (таких, которые могут произойти, если ассоциация хи-квадрат будет сильной). И результаты различных критериев кластеризации часто противоречили друг другу (что вряд ли можно ожидать, когда кластеры действительно ясны).

Иногда иерархическая кластеризация может предложить решение k-кластера, которое является несколько хорошим, как это видно на графике критериев кластеризации; однако проверка его на стабильность не сможет показать его стабильность. Например, это 3-переменные 4x4x3данные

   V1  V2  V3   Count
    1   1   1   21
            2   24
            3   1
        2   1   22
            2   26
            3   1
        3   1   1
            2   1
            3   1
        4   1   17
            2   20
            3   1
    2   1   1   10
            2   12
            3   1
        2   1   10
            2   12
            3   1
        3   1   1
            2   1
            3   1
        4   1   8
            2   9
            3   1
    3   1   1   24
            2   28
            3   1
        2   1   25
            2   30
            3   1
        3   1   1
            2   1
            3   1
        4   1   19
            2   23
            3   1
    4   1   1   24
            2   28
            3   1
        2   1   26
            2   30
            3   1
        3   1   1
            2   1
            3   1
        4   1   19
            2   23
            3   1

когда кластеризация по методу полной иерархии связывания, сходство костей, кажется, довольно разумно разделено на 9 кластеров - в этом случае по соглашению между тремя внутренними судьями:

введите описание изображения здесь

Но решение не является устойчивым, как видно из неполноты разрежения матрицы путаницы исходного решения по отношению к переставленному (переупорядоченному) решению:

введите описание изображения здесь

Если бы решение было стабильным (как это было бы при наличии непрерывных данных), мы бы выбрали 9-кластерное решение как достаточно убедительное.

Кластеризация, основанная на расстоянии логарифмического правдоподобия (в отличие от сходства костей), может дать стабильные и «неплохие» (внутренне вполне допустимые) решения. Но это потому, что расстояние, по крайней мере, как в двухэтапном кластере SPSS, поощряет и стимулирует густонаселенные кластеры и игнорирует малонаселенные. Он не требует, чтобы кластеры с очень низкой частотой внутри были плотными внутри (что, по-видимому, является «политикой» двухэтапного кластерного анализа, который был разработан специально для больших данных и дает мало кластеров; таким образом, небольшие кластеры видны как выпадающие) , Например, эти 2-переменные данные

введите описание изображения здесь

TwoStep будет объединен в 5 кластеров, как показано на рисунке, стабильно, а 5-кластерное решение совсем не плохо, если судить по некоторым критериям кластеризации. Поскольку четыре заполненных кластера очень плотны внутри (фактически, все случаи идентичны), и только один, пятый кластер, который включает несколько случаев, является чрезвычайно энтропийным. Таким образом, на самом деле очевидно, что это 12-кластерное решение, а не 5-кластерное, а 12 - общее количество ячеек в таблице частот, что в качестве «кластерного решения» тривиально и неинтересно.

ttnphns
источник
+1, это то, что я подозревал. Попарно несвязанные против многомерного несвязанного интересного момента. Если рассматривать эту проблему в более широком смысле, означает ли это, что на самом деле нет смысла пытаться кластеризовать чисто номинальные данные? Т.е. должны ли мы просто анализировать переменные, если у нас нет непрерывных данных?
gung - Восстановить Монику
1
@ gung, разве вы не знаете принцип, что корреляция между переменными является другой стороной медали поляризации случаев («диаголезность»)? Это верно, как правило, также для непрерывных данных. Но для непрерывной поляризации может не подразумеваться кластеры. Для категориального, похоже, это подразумевает. Из-за дискретной природы. Так что, вероятно, да, если категориальные переменные коррелируют, есть кластеры для поиска. Но вы должны сделать кластеризацию, чтобы получить кластеры лучше. Это мое предварительное мнение по вашему великому вопросу.
ttnphns
Я не знаком с этим. Возможно я спрошу об этом позже. Я думаю, что это хорошая информация, которую нужно пережевать.
gung - Восстановить Монику
3

Как я уверен, вы знаете, корреляция - это мера линейных отношений между двумя переменными, а не то, насколько близки точки друг к другу. Это объясняет четыре верхние цифры.

Конечно, вы также можете создавать аналогичные графики для дискретных, реальных данных.

Икс{A,В,С,D}рИксрИкс

Вам нужно определить метрику для категориального пространства, прежде чем вы действительно сможете говорить о кластеризации в геометрическом смысле.


источник
Я бы поддержал этот ответ и переформулировал бы его, если позволят оба @gung и Bey, в интуитивно понятном виде. Кластерные данные определяются как «небольшие расстояния в кластере, но большие расстояния между кластерами». На своих рисунках ОП неявно выбрал евклидово расстояние, чтобы проиллюстрировать эту идею кластеризации. Он также выбрал понятие корреляции Пирсона или что-то похожее на него - чтобы проиллюстрировать идею ассоциации между переменными. Это два конкретных / произвольных выбора среди множества альтернатив.
ttnphns
1
(продолжение) Я мог бы даже предположить, что можно было бы выбрать такую ​​меру расстояния и такую ​​меру ассоциации, где концепция «кластеризованности случая» и концепция «переменных ассоциаций» не являются ортогональными. А теперь по категоричным данным. Прежде чем можно будет проверить и показать, могут ли две концепции быть независимыми или связаны, он должен выбрать конкретную меру расстояния для категориальных точек данных и конкретную меру ассоциации для категориальных переменных. Есть много вариантов на выбор! И ответ будет зависеть.
ttnphns
@ttnphns (+1) Мне нравится, как вы сформулировали два основных варианта: расстояние и метрики ассоциации. Не уверен, что мое объяснение не было интуитивным, хотя ... вы не можете определить кластеры без понятия расстояния.
@ttnphns, я думаю, это зависит от Бея. Почему бы вам не превратить некоторые из ваших идей в свой собственный ответ? Я был бы заинтересован в идее, что «кластеризация по случаям» и «ассоциации переменных» становятся неортогональными для непрерывных данных, учитывая некоторые варианты выбора. Bey & ttnphns, я добавил некоторые пояснения к вопросу, касающемуся расстояния и мер по связям, но вы можете смело идти в другом направлении, если хотите. Дайте мне знать, если это нужно больше. Я предпочитаю, чтобы вопрос оставался как можно более «свободным», чтобы дать ответчикам возможность двигаться в другом направлении.
gung - Восстановить Монику
1
@Bey, есть, конечно, много других возможных мер дистанции и ассоциации для категориальных данных, так что вы можете предложить что-то эзотерическое, что заставляет его работать.
gung - Восстановить Монику
2

Рассмотрим расстояние Хемминга - расстояние Хэмминга между двумя строками одинаковой длины - это число позиций, в которых соответствующие символы различны. Из этого определения кажется очевидным, что мы можем получить данные, для которых у нас есть кластеры, основанные на расстоянии Хемминга, но без корреляции между переменными.

Пример следует с использованием Mathematica.

Создайте некоторые категориальные данные (последовательности из 3 символов с одинаковой случайной выборкой из 4 символов):

chs = CharacterRange["a", "d"];
words = StringJoin @@@ Union[Table[RandomChoice[chs, 3], 40]];
Length[words]
words

(* 29 *)

(* {"aac", "aad", "abb", "aca", "acb", "acd", "adb", "adc", "baa", "bab", "bac", "bad", "bcc", "bcd", "caa", "cab", "cac", "cad", "cbb", "ccb", "cda", "cdb", "dab", "dba", "dbb", "dbd", "dca", "dcc", "dcd"} *)

Используйте мозаичные графики для связи между переменными (условные вероятности для пар значений из разных столбцов):

Import["https://raw.githubusercontent.com/antononcube/MathematicaForPrediction/master/MosaicPlot.m"]
wordSeqs = Characters /@ words;
opts = {ColorRules -> {2 -> ColorData[7, "ColorList"]}, ImageSize -> 400};
Grid[{{MosaicPlot[wordSeqs[[All, {1, 2}]], 
    "ColumnNames" -> {"column 1", "column 2"}, opts],
   MosaicPlot[wordSeqs[[All, {2, 3}]], 
    "ColumnNames" -> {"column 2", "column 3"}, opts],
   MosaicPlot[wordSeqs[[All, {1, 3}]], 
    "ColumnNames" -> {"column 1", "column 3"}, opts]}}, Dividers -> All]

введите описание изображения здесь

Мы видим, что корреляции нет.

Найти кластеры:

cls = FindClusters[words, 3, DistanceFunction -> HammingDistance]

(* {{"aac", "aad", "adc", "bac"}, {"abb", "acb", "adb", "baa", "bab", "bad", 
  "caa", "cab", "cac", "cad", "cbb", "ccb", "cda", "cdb", "dab", 
  "dbb"}, {"aca", "acd", "bcc", "bcd", "dba", "dbd", "dca", "dcc", "dcd"}} *)

Если мы заменим каждый символ целым числом, мы увидим на этом графике, как кластеры образуются с расстоянием Хэмминга:

esrules = Thread[chs -> Range[Length[chs]]]; gr1 = 
 ListPointPlot3D[Characters[cls] /. esrules, 
  PlotStyle -> {PointSize[0.02]}, PlotLegends -> Automatic, 
  FaceGrids -> {Bottom, Left, Back}];
gr2 = Graphics3D[
   Map[Text[#, Characters[#] /. esrules, {1, 1}] &, Flatten[cls]]];
Show[gr1, gr2]

введите описание изображения здесь

Дальнейшая кластеризация

Составим график, соединив слова, для которых расстояние Хемминга равно 1:

mat = Clip[Outer[HammingDistance, words, words], {0, 1}, {0, 0}];
nngr = AdjacencyGraph[mat, 
  VertexLabels -> Thread[Range[Length[words]] -> words]]

введите описание изображения здесь

Теперь давайте найдем кластеры сообщества:

CommunityGraphPlot[nngr]

введите описание изображения здесь

Сравните кластеры графа с найденным с FindClusters(который был вынужден найти 3). Мы можем видеть, что «bac» является высокоцентральным, а «aad» может принадлежать зеленому кластеру, который соответствует кластеру 1 на трехмерном графике.

Данные графика

Вот список краев nngr:

{1 <-> 2, 1 <-> 8, 1 <-> 11, 1 <-> 17, 2 <-> 6, 2 <-> 12, 2 <-> 18, 
 3 <-> 5, 3 <-> 7, 3 <-> 19, 3 <-> 25, 4 <-> 5, 4 <-> 6, 4 <-> 27, 
 5 <-> 6, 5 <-> 7, 5 <-> 20, 6 <-> 14, 6 <-> 29, 7 <-> 8, 7 <-> 22, 
 9 <-> 10, 9 <-> 11, 9 <-> 12, 9 <-> 15, 10 <-> 11, 10 <-> 12, 
 10 <-> 16, 10 <-> 23, 11 <-> 12, 11 <-> 13, 11 <-> 17, 12 <-> 14, 
 12 <-> 18, 13 <-> 14, 13 <-> 28, 14 <-> 29, 15 <-> 16, 15 <-> 17, 
 15 <-> 18, 15 <-> 21, 16 <-> 17, 16 <-> 18, 16 <-> 19, 16 <-> 20, 
 16 <-> 22, 16 <-> 23, 17 <-> 18, 19 <-> 20, 19 <-> 22, 19 <-> 25, 
 20 <-> 22, 21 <-> 22, 23 <-> 25, 24 <-> 25, 24 <-> 26, 24 <-> 27, 
 25 <-> 26, 26 <-> 29, 27 <-> 28, 27 <-> 29, 28 <-> 29}
Антон Антонов
источник
Добро пожаловать на сайт! Просто пара замечаний: на каком языке код? (который не аннотирован, кроме того). Как вы определяете relationship between the variables (correlation)?
ttnphns
Это интересно. К сожалению, я не знаю Mathematica (и я менее знаком с расстоянием редактирования), поэтому мне нужно поиграть с этим, чтобы убедиться, что я его понимаю. У меня еще не было шансов, но я собираюсь в ближайшее время.
gung - Восстановить Монику
@ Gung Я думал сделать это в R, но я думал, что ключевой частью является трехмерный график и вращение его под прямым углом (ами), чтобы понять формирование кластеров. Хороший вопрос, кстати!
Антон Антонов
Итак, у вас есть «кластеры» здесь. Но имеют ли они смысл? Они лучше других кластеров? По сюжету я бы сказал, кластер 1 довольно случайный. Так почему же это кластер?
Аноним-Мусс-Восстановить Монику
1
Случайно сформированные (!) Сгенерированные данные явно не должны иметь кластеров. Сюжет «сообщества» вводит в заблуждение, потому что он не сохраняет расстояния. Граф с 1-расстоянием подчеркивает эти проблемы. Это также показывает другой такой пример cda. Извините, я не "покупаю" эти "кластеры". Данные единообразны, предполагается, что нет кластеров.
Аноним-Мусс
2

Точка @ttnphns о парной и многомерной ассоциации хорошо принята. С этим связано старое мнение о важности демонстрации связи с простыми метриками, прежде чем переходить в многомерную структуру. Другими словами, если простые парные меры ассоциации не показывают никакой связи, то становится все более маловероятным, что многомерные отношения будут также что-либо показывать. Я говорю «все менее вероятно» из-за нежелания использовать слово «невозможно». Кроме того, я агностик в отношении используемой метрики, будь то монотонные корреляции Спирмена для порядковых данных, Сомерс Д. , Тау Кендалла, полихорическая корреляция, MIC Решефа, дистанционная корреляция Шелки, что угодно. Выбор метрики не важен в этом обсуждении.

Первоначальная работа по поиску скрытой структуры в категориальной информации датируется началом 50-х годов и Полом Лазерсфельдом, социологом из Колумбии. По сути, он изобрел класс моделей скрытых переменных, который с тех пор получил широкое развитие и модификацию. Во-первых, с работой 60-х годов Джеймса Коулмана, политолога из Калифорнии, о склонностях к скрытым выборам избирателей, за которыми последовал вклад покойного Клиффорда Клогга, также социолога, чье программное обеспечение MELISSA было первой общедоступной бесплатной бесплатной программой класса.

В 80-х годах модели скрытого класса были расширены от чисто категориальной информации до моделей конечных смесей с разработкой таких инструментов, как Latent Gold от Statistical Innovations. Кроме того, Билл Диллон, специалист по маркетингу, разработал программу Гаусса для подбора скрытых дискриминантных моделей конечных смесей. Литература по этому подходу для подбора смесей категориальной и непрерывной информации на самом деле довольно обширна. Это просто не так хорошо известно за пределами областей, где оно было наиболее широко применено, например, в области маркетинга, где эти модели используются для сегментации и кластеризации потребителей.

Тем не менее, эти подходы на основе модели конечной смеси для скрытой кластеризации и анализа таблиц непредвиденных обстоятельств считаются устаревшими в современном мире массивных данных. Современное состояние в поиске связи между огромным набором таблиц непредвиденных обстоятельств - это декомпозиции, доступные при развертывании тензорных моделей, таких как разработанные Дэвидом Дансоном и другими байесовцами в Duke. Вот реферат одной из их статей, а также ссылка:

Анализ таблицы непредвиденных обстоятельств обычно опирается на логарифмические линейные модели, при этом латентный анализ структуры является общей альтернативой. Модели скрытой структуры приводят к тензорной факторизации низкого ранга функции вероятностной массы для многомерных категориальных данных, в то время как логарифмические линейные модели обеспечивают уменьшение размерности за счет разреженности. Мало что известно о связи между этими понятиями уменьшения размерности в двух парадигмах. Получено несколько результатов, связанных с поддержкой лог-линейной модели неотрицательным рангом ассоциированного тензора вероятности. На основании этих результатов мы предлагаем новый свернутый класс разложения тензора Такера, который соединяет существующие разложения PARAFAC и Такера, обеспечивая более гибкую структуру для экономной характеристики многомерных категориальных данных.

https://arxiv.org/pdf/1404.0396.pdf

Майк Хантер
источник
Это интересная информация. Мне не так ясно, как это связано с вопросом.
gung - Восстановить Монику
Принимая во внимание широкую дискуссию и фундаментальные вопросы, поднятые относительно того, существуют ли кластеры категориальных данных, даже отсутствие ясности в отношении актуальности моего вклада вызывает удивление. На мой взгляд, предоставленная информация освещает области методологии и открытия знаний, которые ранее игнорировались. Позвольте мне также указать на мое первоначальное наблюдение - явно адресованное вопросу ОП - относительно того, что переход от парной к многомерной ассоциации весьма маловероятен в отсутствие ассоциации на более простом уровне.
Майк Хантер
Я не хотел обидеться, @DJohnson. Я (несколько) знаком с ж / скрытыми моделями для кластеризации категориальных данных (то есть, анализ скрытого класса). Я упомянул об этом в моем комментарии выше. Я не был знаком с историей, исследователями и программным обеспечением. Это интересно. Я не совсем понимаю, как это отвечает на вопрос о том, могут ли быть обнаруживаемые кластеры в номинальных данных, где переменные не показывают никакой связи. Если это то, к чему вы стремитесь, пример будет полезен. Можете ли вы предоставить один?
gung - Восстановить Монику
@ Gung Конечно нет, и никто не взял.
Майк Хантер