Вопросы с тегом «hierarchical-clustering»

35
Как выбрать метод кластеризации? Как проверить кластерное решение (чтобы гарантировать выбор метода)?

Одна из самых больших проблем с кластерным анализом заключается в том, что нам, возможно, придется делать разные выводы, основываясь на разных методах кластеризации (включая разные методы связи в иерархической кластеризации). Хотелось бы узнать ваше мнение по этому поводу - какой метод вы выберете...

33
Выбор правильного метода связи для иерархической кластеризации

Я выполняю иерархическую кластеризацию данных, которые я собрал и обработал из дампа данных Reddit в Google BigQuery. Мой процесс следующий: Получить последние 1000 сообщений в / г / политика Соберите все комментарии Обработка данных и вычисление n x mматрицы данных (n: пользователи / образцы, m:...

25
Как интерпретировать дендрограмму иерархического кластерного анализа

Рассмотрим пример R ниже: plot( hclust(dist(USArrests), "ave") ) Что именно означает ось Y "Высота"? Глядя на Северную Каролину и Калифорнию (скорее слева). Калифорния "ближе" к Северной Каролине, чем Аризона? Могу ли я сделать эту интерпретацию? Гавайи (справа) присоединяются к группе довольно...

22
Использование корреляции в качестве метрики расстояния (для иерархической кластеризации)

Я хотел бы иерархически кластеризовать свои данные, но вместо евклидова расстояния я хотел бы использовать корреляцию. Кроме того, поскольку коэффициент корреляции варьируется от -1 до 1, причем оба значения -1 и 1 обозначают «совместное регулирование» в моем исследовании, я отношусь к обоим -1 и 1...

19
Как понять недостатки иерархической кластеризации?

Может кто-нибудь объяснить плюсы и минусы иерархической кластеризации? Имеет ли иерархическая кластеризация те же недостатки, что и K? Каковы преимущества иерархической кластеризации по сравнению с K средствами? Когда мы должны использовать средства K вместо иерархической кластеризации и наоборот?...

17
Кластеризация - Интуиция за теоремой Клейнберга о невозможности

Я думал о том, чтобы написать сообщение в блоге об этом интересном анализе Кляйнберга (2002), в котором исследуется сложность кластеризации. Клейнберг обрисовывает в общих чертах три, казалось бы, интуитивных требования к функции кластеризации, а затем доказывает, что такой функции не существует....

15
Точность градиентной машины уменьшается с увеличением числа итераций

Я экспериментирую с алгоритмом машины повышения градиента через caretпакет в R. Используя небольшой набор данных для поступления в колледж, я запустил следующий код: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create...

9
Должно ли расстояние быть «метрикой», чтобы иерархическая кластеризация действовала на нем?

Допустим, мы определяем расстояние, которое не является метрикой , между N элементами. На основании этого расстояния мы затем используем агломерационную иерархическую кластеризацию . Можем ли мы использовать каждый из известных алгоритмов (одиночная / максимальная / средняя связь и т. Д.), Чтобы...