О копенетической корреляции для кластеризации дендрограмм

10

Рассмотрим контекст кластеризации дендрограмм. Давайте назовем оригинальные различия расстояниями между людьми. После построения дендрограммы мы определяем копенетическое различие между двумя индивидами как расстояние между кластерами, к которым эти индивиды принадлежат.

Некоторые люди считают, что корреляция между исходными различиями и копенетическими различиями (так называемая копенетическая корреляция ) является «индексом пригодности» классификации. Это звучит совершенно загадочно для меня. Мое возражение опирается не на конкретный выбор корреляции Пирсона, а на общую идею о том, что любая связь между исходными различиями и копенетическими различиями может быть связана с пригодностью классификации.

Согласны ли вы со мной или могли бы вы представить какой-либо аргумент в пользу использования копенетической корреляции в качестве индекса пригодности для классификации дендрограмм?

Стефан Лоран
источник
Вы не объясняете свои возражения (довольно интуитивно) general idea that any link between the original dissimilarities and the cophenetic dissimilarities could be related to the suitability of the classification. Классификация должна отражать первоначальные различия. Основная особенность дендрограммической классификации заключается в том, что это связано с копенетическим различием. Есть что-то неправильно?
ttnphns
1
Кстати, не следует смешивать понятие иерархической (аглометативной) кластеризации с иерархической (дендрограммической) классификацией . Кластеризация создает свою дендрограмму в виде отчета о процессе ; он не претендует на то, чтобы быть результатом иерархической классификации .
ttnphns
1
Копенетическая корреляция была предложена только для «догматических» классификаций - там, где классификация должна отражать попарные различия, поэтому понятие полезности (копенетической) корреляции следует непосредственно.
ttnphns
2
Возможно, вы захотите прочитать эту статью о копенетической корреляции
ttnphns
3
@ StéphaneLaurent Мне нечего добавить в качестве ответа на ваш вопрос, но я читаю диалог. Ничто из того, что ты сказал, не звучало оскорбительно для меня. Также вы сказали, что не знаете разницы между классификацией и кластеризацией, и я не видел ответа на этот простой вопрос. Это различие между тем, что люди, обучающиеся машинному обучению, называют контролируемым и неконтролируемым. При классификации вы знаете все метки классов для ваших данных и используете эту информацию для построения правила классификации для будущих случаев, в которых нет меток. В кластере у вас нет маркировки.
Майкл Р. Черник

Ответы:

2

... это «индекс пригодности» классификации

Мне не совсем понятно, что это значит. Как я понял, это то, что

корреляция между исходными различиями и копенетическими различиями (так называемая копенетическая корреляция)

является мерой иерархической структуры среди наблюдений , то есть их расстояний. То есть отличия от наблюдений в другом кластере предпочтительно одинаковы. Рассматривая наборы данных A и B, сгруппированные с использованием евклидова расстояния и полной связи ... введите описание изображения здесь ... даже не взирая на карту копенетического расстояния или не вычисляя копенетическую корреляцию, можно увидеть, что копенетическая корреляция A выше, чем у B В иерархии есть уровни. Таким образом, ЦК сообщает о том, одинаковы ли расстояния до наблюдений на одном уровне (кластере).

Для полноты картины: Копенетические корреляции: CC (A) = 0,936 и CC (B) = 0,691.


источник
1
Я хотел бы быть более опытным в этом. Я не совсем следую вашему примеру с тепловыми картами. Что вы видите, что делает очевидным CC (A)> CC (B)? Например, если верхние треугольники были копенетическими расстояниями, а нижние треугольники были исходными расстояниями, и оба демонстрировали схожие закономерности, то я бы признал, что CC будет высоким, и т. Д. Я не уверен, как сделать такой вывод , Это просто, что A, естественно, приведет к лучшей кластеризации, и поэтому получившаяся CC просто должна будет хорошо соответствовать?
gung - Восстановить Монику