Вопросы с тегом «clustering»

44

Нужна ли средняя нормализация и масштабирование функций для кластеризации k-средних?

Каковы наилучшие (рекомендуемые) этапы предварительной обработки перед выполнением

clustering normalization k-means

42

Как сделать обнаружение сообщества в взвешенной социальной сети / графике?

Мне интересно, может ли кто-нибудь предложить хорошие отправные точки, когда дело доходит до обнаружения сообщества / разбиения / кластеризации графа на графе, который имеет взвешенные , ненаправленные ребра. У рассматриваемого графа приблизительно 3 миллиона ребер, и каждое ребро выражает степень...

clustering data-visualization networks partitioning modularity

40

Динамическая Кластеризация Деформации Времени

Каков будет подход к использованию динамической деформации времени (DTW) для кластеризации временных рядов? Я читал о DTW как способ найти сходство между двумя временными рядами, хотя они могут быть сдвинуты во времени. Могу ли я использовать этот метод в качестве меры сходства для алгоритма...

time-series clustering

38

Временной ряд «кластеризация» в R

У меня есть набор данных временных рядов. Каждая серия охватывает один и тот же период, хотя фактические даты в каждом временном ряду могут не совпадать точно. То есть, если бы временной ряд читался в двухмерной матрице, он бы выглядел примерно так: date T1 T2 T3 .... TN 1/1/01 100 59 42 N/A 2/1/01...

r time-series clustering cointegration

35

Как выбрать метод кластеризации? Как проверить кластерное решение (чтобы гарантировать выбор метода)?

Одна из самых больших проблем с кластерным анализом заключается в том, что нам, возможно, придется делать разные выводы, основываясь на разных методах кластеризации (включая разные методы связи в иерархической кластеризации). Хотелось бы узнать ваше мнение по этому поводу - какой метод вы выберете...

clustering validation model-evaluation hierarchical-clustering

34

Почему t-SNE не используется как метод уменьшения размерности для кластеризации или классификации?

В недавнем задании нам было сказано использовать PCA для цифр MNIST, чтобы уменьшить размеры с 64 (8 x 8 изображений) до 2. Затем нам пришлось кластеризовать цифры, используя модель гауссовой смеси. PCA, использующий только 2 основных компонента, не дает отдельных кластеров, и в результате модель...

classification clustering pca dimensionality-reduction tsne

34

Как интерпретировать среднее значение силуэта?

Я пытаюсь использовать силуэт графика, чтобы определить количество кластеров в моем наборе данных. Учитывая набор данных Train , я использовал следующий код Matlab Train_data = full(Train); Result = []; for num_of_cluster = 1:20 centroid = kmeans(Train_data,num_of_cluster,'distance','sqeuclid'); s...

data-visualization clustering matlab

34

Иерархическая кластеризация с данными смешанного типа - какое расстояние / сходство использовать?

В моем наборе данных у нас есть как непрерывные, так и естественно дискретные переменные. Я хочу знать, можем ли мы сделать иерархическую кластеризацию, используя оба типа переменных. И если да, то какое расстояние...

clustering similarities distance-functions mixed-type-data

34

Почему существует разница между ручным вычислением 95-процентного доверительного интервала и использованием функции confint () в R?

Дорогие, я заметил нечто странное, что не могу объяснить, не так ли? В итоге: ручной подход к вычислению доверительного интервала в модели логистической регрессии и функция R confint()дают разные результаты. Я проходил Прикладную логистическую регрессию Хосмера и Лемешоу (2-е издание). В 3-й главе...

r regression logistic confidence-interval profile-likelihood correlation mcmc error mixture measurement data-augmentation r logistic goodness-of-fit r time-series exponential descriptive-statistics average expected-value data-visualization anova teaching hypothesis-testing multivariate-analysis r r mixed-model clustering categorical-data unsupervised-learning r logistic anova binomial estimation variance expected-value r r anova mixed-model multiple-comparisons repeated-measures project-management r poisson-distribution control-chart project-management regression residuals r distributions data-visualization r unbiased-estimator kurtosis expected-value regression spss meta-analysis r censoring regression classification data-mining mixture

33

(Почему) SOM в стиле Кохонена потерял популярность?

Насколько я могу судить, SOM в стиле Кохонена достигли пика примерно в 2005 году и в последнее время не пользовались такой большой пользой. Я не нашел ни одной статьи, в которой говорилось бы, что SOM были включены в другой метод или оказались эквивалентными чему-то другому (во всяком случае, в...

clustering self-organizing-maps

33

Выбор правильного метода связи для иерархической кластеризации

Я выполняю иерархическую кластеризацию данных, которые я собрал и обработал из дампа данных Reddit в Google BigQuery. Мой процесс следующий: Получить последние 1000 сообщений в / г / политика Соберите все комментарии Обработка данных и вычисление n x mматрицы данных (n: пользователи / образцы, m:...

clustering distance unsupervised-learning hierarchical-clustering

33

Кластеризация набора данных с дискретными и непрерывными переменными

У меня есть набор данных X, который имеет 10 измерений, 4 из которых являются дискретными значениями. Фактически, эти 4 дискретные переменные являются порядковыми, то есть более высокое значение подразумевает более высокую / лучшую семантику. 2 из этих дискретных переменных являются категориальными...

clustering k-means discrete-data continuous-data gaussian-mixture

32

Какие стоп-критерии для агломерационной иерархической кластеризации используются на практике?

Я нашел обширную литературу, предлагающую всевозможные критерии (например, Glenn et al. 1985 (pdf) и Jung et al. 2002 (pdf)). Однако большинство из них не так легко реализовать (по крайней мере, с моей точки зрения). Я использую scipy.cluster.hierarchy для получения кластерной иерархии, и сейчас я...

clustering

32

Как PCA поможет с анализом кластеризации k-средних?

Справочная информация . Я хочу классифицировать жилые районы города по группам на основе их социально-экономических характеристик, включая плотность жилищных единиц, плотность населения, площадь зеленых насаждений, стоимость жилья, количество школ / медицинских центров / детских садов и т. Д. Я...

clustering pca k-means dimensionality-reduction

31

Кластеризация длинного списка строк (слов) в группы сходства

У меня под рукой следующая проблема: у меня есть очень длинный список слов, возможно, имен, фамилий и т. Д. Мне нужно сгруппировать этот список слов, чтобы похожие слова, например слова с одинаковым расстоянием редактирования (Левенштейна), появлялись в тот же кластер. Например, «алгоритм» и...

clustering k-means pattern-recognition

30

Анализ латентного класса и кластерный анализ - различия в выводах?

Каковы различия в выводах, которые можно сделать из анализа скрытого класса (LCA) по сравнению с кластерным анализом? Верно ли, что LCA принимает скрытую переменную, лежащую в основе классов, тогда как кластерный анализ представляет собой эмпирическое описание коррелированных атрибутов из алгоритма...

clustering latent-variable latent-class

29

Как работать с иерархическими / вложенными данными в машинном обучении

Я объясню мою проблему на примере. Предположим, вы хотите предсказать доход человека с учетом некоторых атрибутов: {Возраст, Пол, Страна, Регион, Город}. У вас есть тренировочный набор данных, как так train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4,...

regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

28

Сравнение иерархических кластерных дендрограмм, полученных разными расстояниями и методами

[Первоначальный заголовок «Измерение подобия для деревьев иерархической кластеризации» был позже изменен @ttnphns, чтобы лучше отражать тему] Я выполняю ряд иерархических кластерных анализов на базе данных записей пациентов (например, аналогично...

r clustering distance-functions similarities dendrogram

28

Вычисление повторяемости эффектов по модели Лмера

Я только что наткнулся на эту статью , в которой описывается, как вычислить повторяемость (или надежность, или внутриклассовую корреляцию) измерения с помощью моделирования смешанных эффектов. Код R будет: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc =...

mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

28

Как сделать уменьшение размерности в R

У меня есть матрица, где a (i, j) говорит мне, сколько раз я просмотрел страницу j. Есть 27 тысяч человек и 95 тысяч страниц. Я хотел бы иметь несколько «измерений» или «аспектов» в пространстве страниц, которые соответствуют наборам страниц, которые часто просматриваются вместе. Моя конечная цель...

r clustering dimensionality-reduction