Вопросы с тегом «k-means»

k-средних - это метод разделения данных на кластеры путем нахождения определенного числа средних, k, st, когда данные назначаются для кластеров с ближайшим средним, сумма квадратов w / i-кластера минимизируется

365
Как понять недостатки К-средних

K-means - широко используемый метод в кластерном анализе. В моем понимании, этот метод НЕ требует ЛЮБЫХ предположений, т. Е. Дает мне набор данных и заранее определенное количество кластеров, k, и я просто применяю этот алгоритм, который минимизирует сумму квадратов ошибок (SSE), в квадрате внутри...

78
Как определить, достаточно ли данных «кластеризовано», чтобы алгоритмы кластеризации давали значимые результаты?

Как бы вы узнали, что ваши (высокоразмерные) данные демонстрируют достаточную кластеризацию, так что результаты kmeans или другого алгоритма кластеризации действительно значимы? В частности, для алгоритма k-средних, насколько должно быть снижение дисперсии внутри кластера, чтобы фактические...

78
Кластеризация на выходе t-SNE

У меня есть приложение, в котором было бы удобно кластеризовать зашумленный набор данных, прежде чем искать эффекты подгрупп в кластерах. Сначала я посмотрел на PCA, но для достижения 90% изменчивости требуется ~ 30 компонентов, поэтому кластеризация на нескольких компьютерах приведет к выбросу...

77
Как получить симпатичный график результатов кластерного анализа k-средних?

Я использую R для K-средних кластеров. Я использую 14 переменных для запуска K-средних Что такое симпатичный способ представить результаты К-средних? Существуют ли какие-либо реализации? Сложно ли иметь 14 переменных, чтобы представить результаты? Я нашел нечто под названием GGcluster, которое...

62
Почему алгоритм кластеризации k-средних использует только евклидову метрику расстояния?

Есть ли конкретная цель с точки зрения эффективности или функциональности, почему алгоритм k-средних не использует, например, косинусное (дис) сходство в качестве метрики расстояния, а может использовать только евклидову норму? В целом, будет ли метод K-средних соответствовать и быть правильным,...

61
Какова связь между кластеризацией k-средних и PCA?

Обычной практикой является применение PCA (анализ главных компонентов) перед алгоритмом кластеризации (таким как k-средних). Считается, что это улучшает результаты кластеризации на практике (снижение шума). Однако я заинтересован в сравнительном и углубленном изучении взаимосвязи между PCA и...

54
Как определиться с правильным количеством кластеров?

Мы находим центры кластеров и присваиваем точки k различным блокам кластеров в кластеризации k-средних, которая является очень хорошо известным алгоритмом и встречается почти в каждом пакете машинного обучения в сети. Но пропущенная и самая важная часть, на мой взгляд, это выбор правильного k....

50
Кластеризация с K-Means и EM: как они связаны?

Я изучал алгоритмы кластеризации данных (обучение без учителя): EM и k-means. Я продолжаю читать следующее: К-среднее является вариантом EM, с предположениями, что кластеры являются сферическими. Может кто-нибудь объяснить вышеприведенное предложение? Я не понимаю, что означает сферическое, и как...

44
Важно ли масштабировать данные перед кластеризацией?

Я нашел это руководство , в котором предлагается запускать функцию масштабирования функций перед кластеризацией (я считаю, что она преобразует данные в z-показатели). Мне интересно, нужно ли это? Я спрашиваю в основном потому, что есть хорошая точка локтя, когда я не масштабирую данные, но она...

33
Кластеризация набора данных с дискретными и непрерывными переменными

У меня есть набор данных X, который имеет 10 измерений, 4 из которых являются дискретными значениями. Фактически, эти 4 дискретные переменные являются порядковыми, то есть более высокое значение подразумевает более высокую / лучшую семантику. 2 из этих дискретных переменных являются категориальными...

32
Как PCA поможет с анализом кластеризации k-средних?

Справочная информация . Я хочу классифицировать жилые районы города по группам на основе их социально-экономических характеристик, включая плотность жилищных единиц, плотность населения, площадь зеленых насаждений, стоимость жилья, количество школ / медицинских центров / детских садов и т. Д. Я...

31
Кластеризация длинного списка строк (слов) в группы сходства

У меня под рукой следующая проблема: у меня есть очень длинный список слов, возможно, имен, фамилий и т. Д. Мне нужно сгруппировать этот список слов, чтобы похожие слова, например слова с одинаковым расстоянием редактирования (Левенштейна), появлялись в тот же кластер. Например, «алгоритм» и...

29
Как работать с иерархическими / вложенными данными в машинном обучении

Я объясню мою проблему на примере. Предположим, вы хотите предсказать доход человека с учетом некоторых атрибутов: {Возраст, Пол, Страна, Регион, Город}. У вас есть тренировочный набор данных, как так train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4,...

28
Разница между стандартным и сферическим алгоритмами k-средних

Я хотел бы понять, в чем заключается основная разница между стандартными и сферическими алгоритмами кластеризации k-средних. На каждом шаге k-means вычисляет расстояния между векторами элементов и центроидами кластера и переназначает документ этому кластеру, центроид которого является ближайшим....

27
Как использовать двоичные и непрерывные переменные вместе в кластеризации?

Мне нужно использовать двоичные переменные (значения 0 и 1) в k-средних. Но k-means работает только с непрерывными переменными. Я знаю, что некоторые люди все еще используют эти двоичные переменные в k-средних, игнорируя тот факт, что k-средние предназначены только для непрерывных переменных. Это...

25
Процедура кластеризации, где каждый кластер имеет равное количество точек?

У меня есть несколько точек в R p , и я хочу сгруппировать точки так, чтобы:Икс= { х1, . , , , хN}Иксзнак равно{Икс1,,,,,ИксN}X=\{x_1,...,x_n\}рпрпR^p Каждый кластер содержит равное количество элементов . (Предположим, что число кластеров делит n .)ИксИксXNNn Каждый кластер в некотором смысле...

24
Определить различные кластеры 1d данных из базы данных

У меня есть таблица базы данных передачи данных между различными узлами. Это огромная база данных (около 40 миллионов переводов). Одним из атрибутов является количество байтов (nbytes), которые варьируются от 0 до 2 терабайт. Я хотел бы кластеризовать n-байты так, чтобы при заданных k кластерах...

22
Выполнять K-средние (или их близкие родственники) кластеризацию только с матрицей расстояний, а не с данными по точкам

Я хочу выполнить кластеризацию K-средних на имеющихся у меня объектах, но объекты не описываются как точки в пространстве, то есть objects x featuresнабором данных. Тем не менее, я могу вычислить расстояние между любыми двумя объектами (оно основано на функции подобия). Итак, я избавляюсь от...