Вопросы с тегом «clustering»

13
Нужно ли отбрасывать переменные, которые коррелированы / коллинеарны перед запуском kmeans?

Я использую kmeans для определения групп клиентов. У меня есть около 100 переменных для определения кластеров. Каждая из этих переменных представляет собой процент расходов клиента на категорию. Итак, если у меня есть 100 категорий, у меня есть эти 100 переменных, так что сумма этих переменных...

13
Что вы делаете, когда нет точки локтя для кластеризации kmeans?

Я узнал, что при выборе количества кластеров, вы должны искать точку сгиба для разных значений K. Я построил значения Inss для значений k от 1 до 10, но я не вижу четкого локоть. Что вы делаете в таком случае?...

13
Современное состояние дедупликации

Каковы современные методы дедупликации записей? Дедупликацию также иногда называют: связывание записи, разрешение объекта, разрешение идентификатора, объединение / очистка. Я знаю, например, о CBLOCK [1]. Я был бы признателен, если бы ответы также включали ссылки на существующее программное...

12
Как я могу проверить, насколько важна моя кластеризация двоичных данных?

Я делаю анализ корзины покупок, мой набор данных - это набор векторов транзакций с товарами, которые покупаются. Применяя к транзакциям k-means, я всегда получаю некоторый результат. Случайная матрица, вероятно, также показала бы некоторые кластеры. Есть ли способ проверить, является ли...

12
Кластеризация пространственных данных в R

У меня есть набор месячных данных о температуре поверхности моря (SST), и я хочу применить некоторую кластерную методологию для обнаружения регионов с подобными закономерностями SST. У меня есть набор ежемесячных файлов данных, работающих с 1985 по 2009 год, и я хочу применить кластеризацию к...

12
К средних || aka Scalable K-Means ++

Бахман Бахмани и соавт. представил k-means ||, который является более быстрой версией k-means ++. Этот алгоритм взят из страницы 4 их работы , Бахмани Б., Мозли Б., Ваттани А., Кумар Р. и Васильвицкий С. (2012). Масштабируемое k-означает ++. Труды фонда VLDB , 5 (7), 622-633. К сожалению, я не...

12
Робастный кластерный метод для смешанных данных в R

Я рассчитываю на кластеризацию небольшого набора данных (64 наблюдения 4-х интервальных переменных и одной трехфакторной категориальной переменной). Теперь я довольно новичок в кластерном анализе, но я знаю, что был значительный прогресс со времен, когда иерархическая кластеризация или k-средних...

12
Могу ли я использовать PCA для выбора переменных для кластерного анализа?

Я должен уменьшить количество переменных, чтобы провести кластерный анализ. Мои переменные сильно коррелированы, поэтому я подумал о проведении анализа факторов риска PCA (анализ основных компонентов). Однако, если я использую полученные результаты, мои кластеры не совсем корректны (по сравнению с...

12
Интерпретация результата кластеризации k-средних в R

Я использовал kmeansинструкцию R для выполнения алгоритма k-средних в наборе данных радужной оболочки глаза Андерсона. У меня есть вопрос о некоторых параметрах, которые я получил. Результаты: Cluster means: Sepal.Length Sepal.Width Petal.Length Petal.Width 1 5.006000 3.428000 1.462000 0.246000 В...

12
Что делать, если выборочная ковариационная матрица не обратима?

Я работаю над некоторыми методами кластеризации, где для данного кластера векторов d-размерности я предполагаю многомерное нормальное распределение и вычисляю выборочный средний вектор d-размерности и выборочную ковариационную матрицу. Затем, пытаясь решить, принадлежит ли новый, невидимый,...

12
Присвоить веса переменным в кластерном анализе

Я хочу назначить разные веса переменным в моем кластерном анализе, но моя программа (Stata), похоже, не имеет возможности для этого, поэтому мне нужно сделать это вручную. Представьте себе 4 переменные A, B, C, D. Веса для этих переменных должны быть w(A)=50% w(B)=25% w(C)=10% w(D)=15% Мне...

12
Точный критерий Фишера и гипергеометрическое распределение

Я хотел лучше понять точный критерий Фишера, поэтому я разработал следующий пример игрушки, где f и m соответствуют мужской и женской части, а n и y соответствуют «потреблению соды», например: > soda_gender f m n 0 5 y 5 0 Очевидно, это резкое упрощение, но я не хотел, чтобы контекст мешал....

12
Можете ли вы сравнить различные методы кластеризации в наборе данных без какой-либо базовой правды путем перекрестной проверки?

В настоящее время я пытаюсь проанализировать набор данных текстового документа, который не имеет основательной правды. Мне сказали, что вы можете использовать k-кратную перекрестную проверку для сравнения различных методов кластеризации. Однако примеры, которые я видел в прошлом, используют...

12
Как выполнить вменение значений в очень большом количестве точек данных?

У меня очень большой набор данных и около 5% случайных значений отсутствуют. Эти переменные связаны друг с другом. В следующем примере набор данных R - просто игрушечный пример с фиктивными коррелированными данными. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000,...

11
Кластеризация очень искаженных, подсчитываемых данных: есть ли какие-либо предложения (трансформировать и т.д.)

Основная проблема Вот моя основная проблема: я пытаюсь кластеризовать набор данных, содержащий некоторые очень искаженные переменные со счетчиками. Переменные содержат много нулей и поэтому не очень информативны для моей процедуры кластеризации, которая, вероятно, будет алгоритмом k-средних....

11
Расстояние между двумя гауссовыми смесями для оценки кластерных решений

Я провожу быстрое моделирование для сравнения различных методов кластеризации, и в настоящее время попадаю в ловушку, пытаясь оценить кластерные решения. Мне известны различные метрики проверки (многие из них содержатся в cluster.stats () в R), но я предполагаю, что они лучше всего используются,...

11
Какова интуиция в изменении метрики информации (VI) для проверки кластера?

Для таких статистиков, как я, очень трудно уловить идею VIметрики (вариации информации) даже после прочтения соответствующей статьи Марины Мелиа « Сравнение кластеризаций - расстояние, основанное на информации » (Journal of Multivariate Analysis, 2007). На самом деле, я не знаком со многими...

11
Работает ли модульность сети Ньюмана для взвешенных графов со знаком?

Модульность графа определяется на его странице в Википедии . В другом посте кто-то объяснил, что модульность можно легко вычислить (и максимизировать) для взвешенных сетей, поскольку матрица смежности может содержать оцененные связи. Тем не менее, я хотел бы знать, будет ли это работать со...