Вопросы с тегом «k-means»

13
Как я могу преобразовать расстояние (евклидово) в показатель сходства

Я использую kkk означает кластеризацию для кластеризации голосов ораторов. Когда я сравниваю высказывание с данными кластерного динамика, я получаю (евклидово основанное на расстоянии) среднее искажение. Это расстояние может быть в диапазоне [0,∞][0,∞][0,\infty] . Я хочу преобразовать это...

13
Что вы делаете, когда нет точки локтя для кластеризации kmeans?

Я узнал, что при выборе количества кластеров, вы должны искать точку сгиба для разных значений K. Я построил значения Inss для значений k от 1 до 10, но я не вижу четкого локоть. Что вы делаете в таком случае?...

13
Нужно ли отбрасывать переменные, которые коррелированы / коллинеарны перед запуском kmeans?

Я использую kmeans для определения групп клиентов. У меня есть около 100 переменных для определения кластеров. Каждая из этих переменных представляет собой процент расходов клиента на категорию. Итак, если у меня есть 100 категорий, у меня есть эти 100 переменных, так что сумма этих переменных...

12
Как выполнить вменение значений в очень большом количестве точек данных?

У меня очень большой набор данных и около 5% случайных значений отсутствуют. Эти переменные связаны друг с другом. В следующем примере набор данных R - просто игрушечный пример с фиктивными коррелированными данными. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000,...

12
К средних || aka Scalable K-Means ++

Бахман Бахмани и соавт. представил k-means ||, который является более быстрой версией k-means ++. Этот алгоритм взят из страницы 4 их работы , Бахмани Б., Мозли Б., Ваттани А., Кумар Р. и Васильвицкий С. (2012). Масштабируемое k-означает ++. Труды фонда VLDB , 5 (7), 622-633. К сожалению, я не...

12
Интерпретация результата кластеризации k-средних в R

Я использовал kmeansинструкцию R для выполнения алгоритма k-средних в наборе данных радужной оболочки глаза Андерсона. У меня есть вопрос о некоторых параметрах, которые я получил. Результаты: Cluster means: Sepal.Length Sepal.Width Petal.Length Petal.Width 1 5.006000 3.428000 1.462000 0.246000 В...

11
Есть ли случаи, когда не существует оптимального k в k-средних?

Это было в моей голове, по крайней мере, несколько часов. Я пытался найти оптимальное k для вывода из алгоритма k-средних (с метрикой косинусного сходства ), поэтому в итоге я построил график искажения как функции от числа кластеров. Мой набор данных представляет собой коллекцию из 800 документов в...

11
Какой алгоритм я должен использовать, чтобы разбить огромный набор двоичных данных на несколько категорий?

У меня есть большая (650K строк * 62 столбцов) матрица двоичных данных (только 0-1 записей). Матрица в основном скудная: около 8% заполнено. Я хотел бы разбить его на 5 групп, скажем, с именами от 1 до 5. Я пробовал иерархическую кластеризацию, и она не смогла обработать размер. Я также использовал...

11
Методы инициализации кластеризации K-средних

Меня интересует текущее состояние дел с выбором исходных семян (кластерных центров) для K-средних. Поиск в Google приводит к двум популярным вариантам: случайный отбор начальных семян, и, с использованием техники отбора KMeans ++: Arthur & Vassilvitskii 2006 k-means ++: Преимущества тщательного...

11
Пример, в котором выходные данные алгоритма k-medoid отличаются от выходных данных алгоритма k-средних

Я понимаю разницу между K Medoid и K означает. Но можете ли вы привести пример с небольшим набором данных, в котором выходной сигнал k medoid отличается от выходного сигнала k...

11
Кластеризация очень искаженных, подсчитываемых данных: есть ли какие-либо предложения (трансформировать и т.д.)

Основная проблема Вот моя основная проблема: я пытаюсь кластеризовать набор данных, содержащий некоторые очень искаженные переменные со счетчиками. Переменные содержат много нулей и поэтому не очень информативны для моей процедуры кластеризации, которая, вероятно, будет алгоритмом k-средних....

11
R / mgcv: Почему тензорные продукты te () и ti () производят разные поверхности?

mgcvПакет Rимеет две функции для установки взаимодействия Тензор продукта: te()и ti(). Я понимаю основное разделение труда между ними (подгонка нелинейного взаимодействия против разложения этого взаимодействия на основные эффекты и взаимодействие). Чего я не понимаю, так это почему te(x1, x2)и...

10
K-означает: сколько итераций в практических ситуациях?

У меня нет отраслевого опыта в области интеллектуального анализа данных или больших данных, поэтому я хотел бы услышать, как вы поделились своим опытом. Люди на самом деле используют k-means, PAM, CLARA и т. Д. В действительно большом наборе данных? Или они просто случайно выбирают из него образец?...

10
Разница между PCA и спектральной кластеризацией для небольшого выборочного набора булевых функций

У меня есть набор данных из 50 образцов. Каждый образец состоит из 11 (возможно, коррелированных) булевых функций. Я хотел бы кое-что визуализировать эти образцы на двухмерном графике и изучить, есть ли кластеры / группировки среди 50 образцов. Я попробовал следующие два подхода: (a) Запустите PCA...

10
K-среднее по косинусу сходства против евклидова расстояния (LSA)

Я использую скрытый семантический анализ для представления совокупности документов в пространстве меньшего размера. Я хочу сгруппировать эти документы в две группы с помощью k-средних. Несколько лет назад я сделал это с помощью gensim Python и написал свой собственный алгоритм k-средних. Я...

10
Присвоение меток классов кластерам k-средних

У меня есть очень простой вопрос о кластеризации. После того, как я нашел k кластеров с их центроидами, как мне интерпретировать классы точек данных, которые я кластеризовал (назначая значимые метки классов каждому кластеру). Я не говорю о проверке найденных кластеров. Можно ли это сделать с...

10
Почему Anova () и drop1 () предоставили разные ответы для GLMM?

У меня есть GLMM формы: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Когда я использую drop1(model, test="Chi"), я получаю другие результаты, чем если бы я использовал Anova(model, type="III")из пакета автомобиля или summary(model). Последние...

10
Оптимальное количество компонентов в гауссовой смеси

Таким образом, получение «идеи» об оптимальном количестве кластеров в k-средних хорошо документировано. Я нашел статью о том, как сделать это в гауссовых смесях, но не уверен, что меня это убедило, я не очень хорошо понимаю. Есть ли ... более мягкий способ сделать...

9
Определите неизвестное количество реальных мест из отчетов на основе GPS

Я работаю над некоторым программным обеспечением, которое должно определять местоположение в реальном мире (например, скоростные камеры) из нескольких отчетов на основе GPS . Пользователь будет управлять автомобилем при сообщении местоположения, поэтому отчеты очень неточные. Чтобы решить эту...