Вопросы с тегом «clustering»

14
Каковы «горячие алгоритмы» для машинного обучения?

Это наивный вопрос от того, кто начинает изучать машинное обучение. Я читаю в эти дни книгу «Машинное обучение: алгоритмическая перспектива» от Марсленда. Я считаю ее полезной в качестве вводной книги, но теперь я хотел бы перейти к продвинутым алгоритмам, которые в настоящее время дают лучшие...

14
Может ли кто-нибудь объяснить динамическое искажение времени для определения сходства временных рядов?

Я пытаюсь понять динамическое искажение времени для сравнения временных рядов вместе. У меня есть три набора данных временного ряда, как это: T1 <- structure(c(0.000213652387565, 0.000535045478866, 0, 0, 0.000219346347883, 0.000359669104424, 0.000269469145783, 0.00016051364366,...

14
Дирихле Процессы кластеризации: как бороться с метками?

Вопрос: Каков стандартный способ кластеризации данных с использованием процесса Дирихле? При использовании выборочных кластеров Гиббса во время отбора проб появляются и исчезают. Кроме того, у нас есть проблема идентификации, так как апостериорное распределение инвариантно к кластерным связям....

14
к-значит против к-медиана?

Я знаю, что есть алгоритм кластеризации k-средних и k-медиана. Один использует среднее в качестве центра кластера, а другой использует медиану. Мой вопрос: когда и где использовать...

14
Как измерить форму кластера?

Я знаю, что этот вопрос недостаточно четко определен, но некоторые кластеры имеют тенденцию быть эллиптическими или лежать в пространстве меньшего размера, в то время как другие имеют нелинейные формы (в 2D или 3D-примерах). Есть ли мера нелинейности (или «формы») кластеров? Обратите внимание, что...

14
Процедура выбора eps и minPts для DBSCAN

DBSCAN - наиболее цитируемый алгоритм кластеризации, согласно некоторым литературным источникам, и он может найти кластеры произвольной формы на основе плотности. У него есть два параметра eps (как радиус окрестности) и minPts (как минимальные соседи, рассматривающие точку как точку ядра), которые,...

14
Почему мы используем k-средства вместо других алгоритмов?

Я исследовал k-means, и вот что я получил: k-means - это один из самых простых алгоритмов, который использует неконтролируемый метод обучения для решения известных проблем кластеризации. Это работает очень хорошо с большими наборами данных. Однако есть и недостатки K-Means, которые: Сильная...

14
Как я могу сгруппировать числовые данные в естественные «скобки»? (например, доход)

Ниже описано, чего я пытаюсь достичь, но возможно, что альтернативное постановление проблемы может описать мою цель: Я хочу разделите следующие числа на группы, где дисперсии чисел в каждой группе не слишком велики, а различия между средними значениями групп не слишком малы сравните полученное в...

14
Есть ли функция в R, которая берет центры кластеров, которые были найдены, и назначает кластеры для нового набора данных

У меня есть две части многомерного набора данных, давайте назовем их trainи test. И я хочу построить модель, основанную на наборе данных поезда, а затем проверить ее на наборе тестовых данных. Количество кластеров известно. Я попытался применить кластеризацию k-средних в R, и я получил объект,...

13
Понимание сравнений результатов кластеризации

Я экспериментирую с классификацией данных по группам. Я довольно новичок в этой теме, и пытаюсь понять вывод некоторых из анализа. Используя примеры из Quick-R , предлагается несколько Rпакетов. Я попытался использовать два из этих пакетов ( fpcс помощью kmeansфункции и mclust). Один из аспектов...

13
Кластеризация вероятностных распределений - методы и метрики?

У меня есть несколько точек данных, каждая из которых содержит 5 векторов агломерированных дискретных результатов, результаты каждого вектора, сгенерированные различным распределением (конкретный вид, в котором я не уверен, мое лучшее предположение - Вейбулл, с параметром формы, изменяющимся где-то...

13
Что вы делаете, когда нет точки локтя для кластеризации kmeans?

Я узнал, что при выборе количества кластеров, вы должны искать точку сгиба для разных значений K. Я построил значения Inss для значений k от 1 до 10, но я не вижу четкого локоть. Что вы делаете в таком случае?...

13
Использование теста статистической значимости для проверки результатов кластерного анализа

Я изучаю использование статистической значимости (SST) для проверки результатов кластерного анализа. Я нашел несколько статей по этой теме, таких как « Статистическая значимость кластеризации для данных большого размера с малым размером выборки », Liu, Yufeng et al. (2008) « О некоторых тестах...

13
Инициализация K-средних центров с помощью случайных подвыборок набора данных?

Если у меня есть определенный набор данных, насколько разумно было бы инициализировать центры кластеров, используя случайные выборки этого набора данных? Например, предположим, я хочу 5 clusters. Я, 5 random samplesскажем, size=20%из оригинального набора данных. Могу ли я затем взять среднее...

13
Выполняется ли неравенство треугольника для этих корреляционных расстояний?

Для иерархической кластеризации я часто вижу следующие две «метрики» (они точно не говорят) для измерения расстояния между двумя случайными переменными XXX и YYY : \newcommand{\Cor}{\mathrm{Cor}} d1(X,Y)d2(X,Y)=1−|Cor(X,Y)|,=1−(Cor(X,Y))2d1(X,Y)=1−|Cor(X,Y)|,d2(X,Y)=1−(Cor(X,Y))2\begin{align}...

13
Подходящие методы кластеризации для временных данных?

У меня есть временные данные частот активности. Я хочу идентифицировать кластеры в данных, которые указывают различные периоды времени с подобными уровнями активности. В идеале я хочу идентифицировать кластеры без указания количества кластеров априори. Каковы подходящие методы кластеризации? Если в...

13
Кластер больших данных в R и имеет ли значение выборка?

Я новичок в науке о данных, и у меня проблема с поиском кластеров в наборе данных с 200 000 строк и 50 столбцов в R. Поскольку данные имеют как числовые, так и номинальные переменные, такие методы, как K-средства, которые используют евклидову меру расстояния, не кажутся подходящим выбором. Поэтому...

13
Нужно ли отбрасывать переменные, которые коррелированы / коллинеарны перед запуском kmeans?

Я использую kmeans для определения групп клиентов. У меня есть около 100 переменных для определения кластеров. Каждая из этих переменных представляет собой процент расходов клиента на категорию. Итак, если у меня есть 100 категорий, у меня есть эти 100 переменных, так что сумма этих переменных...

13
Как я могу преобразовать расстояние (евклидово) в показатель сходства

Я использую kkk означает кластеризацию для кластеризации голосов ораторов. Когда я сравниваю высказывание с данными кластерного динамика, я получаю (евклидово основанное на расстоянии) среднее искажение. Это расстояние может быть в диапазоне [0,∞][0,∞][0,\infty] . Я хочу преобразовать это...