Вопросы с тегом «clustering»

28
Как сделать уменьшение размерности в R

У меня есть матрица, где a (i, j) говорит мне, сколько раз я просмотрел страницу j. Есть 27 тысяч человек и 95 тысяч страниц. Я хотел бы иметь несколько «измерений» или «аспектов» в пространстве страниц, которые соответствуют наборам страниц, которые часто просматриваются вместе. Моя конечная цель...

27
Как использовать двоичные и непрерывные переменные вместе в кластеризации?

Мне нужно использовать двоичные переменные (значения 0 и 1) в k-средних. Но k-means работает только с непрерывными переменными. Я знаю, что некоторые люди все еще используют эти двоичные переменные в k-средних, игнорируя тот факт, что k-средние предназначены только для непрерывных переменных. Это...

26
Чем нахождение центроида отличается от нахождения среднего значения?

При выполнении иерархической кластеризации можно использовать множество метрик для измерения расстояния между кластерами. Две такие метрики подразумевают вычисление центроидов и средних точек данных в кластерах. В чем разница между средним и центроидом? Разве это не одна и та же точка в...

25
Каково допустимое значение критерия Калинского и Харабаса (СН)?

Я провел анализ данных, пытаясь сгруппировать продольные данные, используя R и пакет kml . Мои данные содержат около 400 отдельных траекторий (как это называется в статье). Вы можете увидеть мои результаты на следующем рисунке: После прочтения главы 2.2 «Выбор оптимального числа кластеров» в...

25
Обнаружение схем мошенничества на экзамене с несколькими вопросами

ВОПРОС: У меня есть двоичные данные по экзаменационным вопросам (правильно / неправильно). Некоторые люди могли иметь предварительный доступ к подмножеству вопросов и их правильных ответов. Я не знаю кто, сколько или какой. Если бы обмана не было, предположим, что я бы смоделировал вероятность...

25
LSA против PCA (кластеризация документов)

Я изучаю различные методы, используемые в кластеризации документов, и я хотел бы прояснить некоторые сомнения, касающиеся PCA (анализ главных компонентов) и LSA (скрытый семантический анализ). Первое - какие различия между ними? Я знаю, что в PCA декомпозиция SVD применяется к матрице...

25
Как интерпретировать дендрограмму иерархического кластерного анализа

Рассмотрим пример R ниже: plot( hclust(dist(USArrests), "ave") ) Что именно означает ось Y "Высота"? Глядя на Северную Каролину и Калифорнию (скорее слева). Калифорния "ближе" к Северной Каролине, чем Аризона? Могу ли я сделать эту интерпретацию? Гавайи (справа) присоединяются к группе довольно...

25
Процедура кластеризации, где каждый кластер имеет равное количество точек?

У меня есть несколько точек в R p , и я хочу сгруппировать точки так, чтобы:Икс= { х1, . , , , хN}Иксзнак равно{Икс1,,,,,ИксN}X=\{x_1,...,x_n\}рпрпR^p Каждый кластер содержит равное количество элементов . (Предположим, что число кластеров делит n .)ИксИксXNNn Каждый кластер в некотором смысле...

24
Определить различные кластеры 1d данных из базы данных

У меня есть таблица базы данных передачи данных между различными узлами. Это огромная база данных (около 40 миллионов переводов). Одним из атрибутов является количество байтов (nbytes), которые варьируются от 0 до 2 терабайт. Я хотел бы кластеризовать n-байты так, чтобы при заданных k кластерах...

23
Следует ли считать уменьшение размерности для визуализации «закрытой» проблемой, решаемой с помощью t-SNE?

Я много читал об алгоритме sne для уменьшения размерности. Я очень впечатлен производительностью на «классических» наборах данных, таких как MNIST, где достигается четкое разделение цифр ( см. Оригинальную статью ):Ttt Я также использовал его, чтобы визуализировать функции, которым научилась...

23
Кластеризация переменных на основе корреляций между ними

Вопросов: У меня большая корреляционная матрица. Вместо того, чтобы кластеризовать отдельные корреляции, я хочу кластеризовать переменные на основе их корреляций друг с другом, т. Е. Если переменная A и переменная B имеют схожие корреляции с переменными C-Z, то A и B должны быть частью одного...

22
Выполнять K-средние (или их близкие родственники) кластеризацию только с матрицей расстояний, а не с данными по точкам

Я хочу выполнить кластеризацию K-средних на имеющихся у меня объектах, но объекты не описываются как точки в пространстве, то есть objects x featuresнабором данных. Тем не менее, я могу вычислить расстояние между любыми двумя объектами (оно основано на функции подобия). Итак, я избавляюсь от...

22
Кластеризация двоичной матрицы

У меня есть полумаленькая матрица двоичных объектов размером 250k x 100. Каждая строка является пользователем, а столбцы представляют собой двоичные «теги» некоторого поведения пользователя, например «likes_cats». user 1 2 3 4 5 ... ------------------------- A 1 0 1 0 1 B 0 1 0 1 0 C 1 0 0 1 0 Я...

22
Использование корреляции в качестве метрики расстояния (для иерархической кластеризации)

Я хотел бы иерархически кластеризовать свои данные, но вместо евклидова расстояния я хотел бы использовать корреляцию. Кроме того, поскольку коэффициент корреляции варьируется от -1 до 1, причем оба значения -1 и 1 обозначают «совместное регулирование» в моем исследовании, я отношусь к обоим -1 и 1...

22
Как кластеризовать временные ряды?

У меня вопрос по кластерному анализу. Есть 3000 компаний, которые должны быть сгруппированы в соответствии с их потреблением энергии в течение 5 лет. Каждая компания имеет значения для каждого часа в течение 5 лет. Я хотел бы выяснить, имеют ли некоторые компании одинаковую структуру в зависимости...

22
Контролируемая кластеризация или классификация?

Второй вопрос заключается в том, что я обнаружил, что где-то в сети обсуждалась «контролируемая кластеризация», насколько я знаю, кластеризация не контролируется, так что именно означает «контролируемая кластеризация»? В чем разница с «классификацией»? Об этом много ссылок:...

21
Как спроецировать новый вектор на пространство PCA?

После выполнения анализа главных компонентов (PCA) я хочу спроецировать новый вектор на пространство PCA (т.е. найти его координаты в системе координат PCA). Я рассчитал PCA на языке R, используя prcomp. Теперь я должен быть в состоянии умножить свой вектор на матрицу вращения PCA. Должны ли...

21
Если кластеризация k-средних является формой моделирования гауссовой смеси, можно ли ее использовать, когда данные не являются нормальными?

Я читаю Бишопа об алгоритме EM для GMM и взаимосвязи между GMM и k-means. В этой книге говорится, что k-means - это жестко заданная версия GMM. Мне интересно, означает ли это, что если данные, которые я пытаюсь кластеризовать, не являются гауссовыми, я не могу использовать k-means (или, по крайней...

21
Почему смешанные данные являются проблемой для евклидовых алгоритмов кластеризации?

Большинство классических алгоритмов кластеризации и уменьшения размерности (иерархическая кластеризация, анализ главных компонентов, k-средних, самоорганизующиеся карты ...) разработаны специально для числовых данных, а их входные данные рассматриваются как точки в евклидовом пространстве. Это,...

21
Сравнение кластеров: индекс Рэнда и вариация информации

Мне было интересно, есть ли у кого-нибудь понимание или интуиция, стоящие за разницей между вариацией информации и индексом Рэнда для сравнения кластеризаций. Я прочитал статью Марины Мелии « Сравнение кластеризаций - расстояние, основанное на информации » (Журнал многомерного анализа, 2007), но,...