Вопросы с тегом «clustering»

14

Каковы «горячие алгоритмы» для машинного обучения?

Это наивный вопрос от того, кто начинает изучать машинное обучение. Я читаю в эти дни книгу «Машинное обучение: алгоритмическая перспектива» от Марсленда. Я считаю ее полезной в качестве вводной книги, но теперь я хотел бы перейти к продвинутым алгоритмам, которые в настоящее время дают лучшие...

machine-learning clustering bioinformatics

14

Может ли кто-нибудь объяснить динамическое искажение времени для определения сходства временных рядов?

Я пытаюсь понять динамическое искажение времени для сравнения временных рядов вместе. У меня есть три набора данных временного ряда, как это: T1 <- structure(c(0.000213652387565, 0.000535045478866, 0, 0, 0.000219346347883, 0.000359669104424, 0.000269469145783, 0.00016051364366,...

r time-series clustering

14

Дирихле Процессы кластеризации: как бороться с метками?

Вопрос: Каков стандартный способ кластеризации данных с использованием процесса Дирихле? При использовании выборочных кластеров Гиббса во время отбора проб появляются и исчезают. Кроме того, у нас есть проблема идентификации, так как апостериорное распределение инвариантно к кластерным связям....

bayesian clustering mcmc dirichlet-process identifiability

14

к-значит против к-медиана?

Я знаю, что есть алгоритм кластеризации k-средних и k-медиана. Один использует среднее в качестве центра кластера, а другой использует медиану. Мой вопрос: когда и где использовать...

clustering k-means

14

Как измерить форму кластера?

Я знаю, что этот вопрос недостаточно четко определен, но некоторые кластеры имеют тенденцию быть эллиптическими или лежать в пространстве меньшего размера, в то время как другие имеют нелинейные формы (в 2D или 3D-примерах). Есть ли мера нелинейности (или «формы») кластеров? Обратите внимание, что...

unsupervised-learning clustering

14

Процедура выбора eps и minPts для DBSCAN

DBSCAN - наиболее цитируемый алгоритм кластеризации, согласно некоторым литературным источникам, и он может найти кластеры произвольной формы на основе плотности. У него есть два параметра eps (как радиус окрестности) и minPts (как минимальные соседи, рассматривающие точку как точку ядра), которые,...

clustering dbscan

14

Почему мы используем k-средства вместо других алгоритмов?

Я исследовал k-means, и вот что я получил: k-means - это один из самых простых алгоритмов, который использует неконтролируемый метод обучения для решения известных проблем кластеризации. Это работает очень хорошо с большими наборами данных. Однако есть и недостатки K-Means, которые: Сильная...

clustering data-mining algorithms k-means

14

Существуют ли алгоритмы кластеризации без учета расстояния?

Кажется, что для K-средних и других связанных алгоритмов кластеризация основана на расчете расстояния между точками. Есть ли тот, который работает без

machine-learning clustering data-mining k-means

14

Как я могу сгруппировать числовые данные в естественные «скобки»? (например, доход)

Ниже описано, чего я пытаюсь достичь, но возможно, что альтернативное постановление проблемы может описать мою цель: Я хочу разделите следующие числа на группы, где дисперсии чисел в каждой группе не слишком велики, а различия между средними значениями групп не слишком малы сравните полученное в...

clustering relative-distribution

14

Есть ли функция в R, которая берет центры кластеров, которые были найдены, и назначает кластеры для нового набора данных

У меня есть две части многомерного набора данных, давайте назовем их trainи test. И я хочу построить модель, основанную на наборе данных поезда, а затем проверить ее на наборе тестовых данных. Количество кластеров известно. Я попытался применить кластеризацию k-средних в R, и я получил объект,...

r clustering k-means

13

Понимание сравнений результатов кластеризации

Я экспериментирую с классификацией данных по группам. Я довольно новичок в этой теме, и пытаюсь понять вывод некоторых из анализа. Используя примеры из Quick-R , предлагается несколько Rпакетов. Я попытался использовать два из этих пакетов ( fpcс помощью kmeansфункции и mclust). Один из аспектов...

r clustering

13

Кластеризация вероятностных распределений - методы и метрики?

У меня есть несколько точек данных, каждая из которых содержит 5 векторов агломерированных дискретных результатов, результаты каждого вектора, сгенерированные различным распределением (конкретный вид, в котором я не уверен, мое лучшее предположение - Вейбулл, с параметром формы, изменяющимся где-то...

distributions clustering feature-selection kolmogorov-smirnov k-means

13

Что вы делаете, когда нет точки локтя для кластеризации kmeans?

Я узнал, что при выборе количества кластеров, вы должны искать точку сгиба для разных значений K. Я построил значения Inss для значений k от 1 до 10, но я не вижу четкого локоть. Что вы делаете в таком случае?...

clustering k-means

13

Использование теста статистической значимости для проверки результатов кластерного анализа

Я изучаю использование статистической значимости (SST) для проверки результатов кластерного анализа. Я нашел несколько статей по этой теме, таких как « Статистическая значимость кластеризации для данных большого размера с малым размером выборки », Liu, Yufeng et al. (2008) « О некоторых тестах...

hypothesis-testing clustering statistical-significance

13

Инициализация K-средних центров с помощью случайных подвыборок набора данных?

Если у меня есть определенный набор данных, насколько разумно было бы инициализировать центры кластеров, используя случайные выборки этого набора данных? Например, предположим, я хочу 5 clusters. Я, 5 random samplesскажем, size=20%из оригинального набора данных. Могу ли я затем взять среднее...

clustering k-means unsupervised-learning

13

Выполняется ли неравенство треугольника для этих корреляционных расстояний?

Для иерархической кластеризации я часто вижу следующие две «метрики» (они точно не говорят) для измерения расстояния между двумя случайными переменными XXX и YYY : \newcommand{\Cor}{\mathrm{Cor}} d1(X,Y)d2(X,Y)=1−|Cor(X,Y)|,=1−(Cor(X,Y))2d1(X,Y)=1−|Cor(X,Y)|,d2(X,Y)=1−(Cor(X,Y))2\begin{align}...

correlation clustering distance metric

13

Подходящие методы кластеризации для временных данных?

У меня есть временные данные частот активности. Я хочу идентифицировать кластеры в данных, которые указывают различные периоды времени с подобными уровнями активности. В идеале я хочу идентифицировать кластеры без указания количества кластеров априори. Каковы подходящие методы кластеризации? Если в...

machine-learning clustering

13

Кластер больших данных в R и имеет ли значение выборка?

Я новичок в науке о данных, и у меня проблема с поиском кластеров в наборе данных с 200 000 строк и 50 столбцов в R. Поскольку данные имеют как числовые, так и номинальные переменные, такие методы, как K-средства, которые используют евклидову меру расстояния, не кажутся подходящим выбором. Поэтому...

r clustering sampling large-data

13

Нужно ли отбрасывать переменные, которые коррелированы / коллинеарны перед запуском kmeans?

Я использую kmeans для определения групп клиентов. У меня есть около 100 переменных для определения кластеров. Каждая из этих переменных представляет собой процент расходов клиента на категорию. Итак, если у меня есть 100 категорий, у меня есть эти 100 переменных, так что сумма этих переменных...

clustering data-mining k-means multicollinearity compositional-data

13

Как я могу преобразовать расстояние (евклидово) в показатель сходства

Я использую kkk означает кластеризацию для кластеризации голосов ораторов. Когда я сравниваю высказывание с данными кластерного динамика, я получаю (евклидово основанное на расстоянии) среднее искажение. Это расстояние может быть в диапазоне [0,∞][0,∞][0,\infty] . Я хочу преобразовать это...

clustering k-means distance euclidean