Какова интуиция в изменении метрики информации (VI) для проверки кластера?

Для таких статистиков, как я, очень трудно уловить идею VIметрики (вариации информации) даже после прочтения соответствующей статьи Марины Мелиа « Сравнение кластеризаций - расстояние, основанное на информации » (Journal of Multivariate Analysis, 2007). На самом деле, я не знаком со многими терминами кластеризации.

Ниже приведен MWE, и я хотел бы знать, что означает вывод в различных используемых метриках. У меня есть эти два кластера в R и в том же порядке id:

> dput(a)
structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L, 
4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 
1L, 1L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 2L, 2L, 
4L, 3L, 3L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 3L, 1L, 4L, 3L, 4L, 4L, 
4L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 
4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 
4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 4L
), .Label = c("1", "2", "3", "4"), class = "factor")
> dput(b)
structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L, 
4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 
1L, 1L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 2L, 2L, 
4L, 3L, 3L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 3L, 1L, 4L, 3L, 4L, 4L, 
3L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 2L, 4L, 3L, 3L, 4L, 4L, 4L, 4L, 
4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 
4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 4L
), .Label = c("1", "2", "3", "4"), class = "factor")

Сейчас занимаюсь сравнениями, основываясь VIкак на других показателях / показателях, так и в хронологическом порядке их появления в литературе.

library(igraph)
  # Normalized Mutual Information (NMI) measure 2005:
compare(a, b, method = c("nmi")) 
[1] 0.8673525
  # Variation of Information (VI) metric 2003:
compare(a, b, method = c("vi")) 
[1] 0.2451685
  # Jaccard Index 2002:
clusteval::cluster_similarity(a, b, similarity = c("jaccard"), method = "independence") 
[1] 0.8800522
  # van Dongen S metric 2000:
compare(a, b, method = c("split.join")) 
[1] 8
  # Adjusted Rand Index 1985:
compare(a, b, method = c("adjusted.rand")) 
[1] 0.8750403
  # Rand Index 1971:
compare(a, b, method = c("rand")) 
[1] 0.9374788

Как видите, VIзначение отличалось от всех остальных.

Что говорит это значение (и как оно связано с рисунком ниже)?
Каковы рекомендации для того, чтобы считать это значение низким или высоким?
Определены ли какие-либо руководящие принципы?

Может быть, эксперты в этой области могут предоставить некоторые разумные описания для мирян, таких как я, при попытке сообщить о таких результатах. Я был бы очень признателен, если бы кто-то предоставил также рекомендации для других метрик (когда рассматривать значение, большое или маленькое, т. Е. В отношении сходства между двумя кластерами).

Я читал соответствующие темы резюме здесь и здесь , но все еще не мог понять интуицию позади VI. Может кто-нибудь объяснить это на простом английском?

На приведенном ниже рисунке изображена фигура 2 из упомянутой выше статьи о VI.

введите описание изображения здесь

r clustering validation intuition докторская степень
источник

Все эти сходства и метрики (обратите внимание на разницу между этими двумя типами) так или иначе измеряют степень фрагментации, связанной с наибольшей общей субкластеризацией между двумя разделами. Все они используют так называемую матрицу путаницы. Рассматривая точную формулу для VI, можно понять, как измерять эту фрагментацию. Я бы предложил взглянуть на формулу в одной из публикаций Мейлы, а также прочитать о нормализованных версиях всех этих расстояний, поскольку все они имеют разные масштабы. Это может быть самым важным моментом.

micans

Я также боролся с интерпретацией VI и нашел эту статью очень полезной!

Пицца

Вы должны понимать, что меры могут иметь различную интерпретацию.

Судя по вашему сюжету, низкий VI - это хорошо.

1 - 0.2451685 = 0.7548315

что намного больше соответствует другим мерам.

Тем не менее, обратите внимание, что большинство этих мер измеряют что-то другое .

Нет никаких оснований полагать, что если один показатель равен 0,8, другой также должен быть равен 0,8.

ВЫЙТИ - Anony-Mousse
источник

Я думаю, что ОП был бы признателен, если бы вы могли объяснить, что каждый из них измеряет.

gung - Восстановить Монику

Я не знаю их достаточно хорошо, чтобы объяснить каждый из них. Просто ясно, что у них нет сопоставимого масштаба / единицы. Так же, как Вольт и ноги не сопоставимы.

ВЫЙТИ - Anony-Mousse

Какова интуиция в изменении метрики информации (VI) для проверки кластера?

Ответы: