Вопросы с тегом «clustering»

9
Компактная кластеризация

Большинство алгоритмов кластеризации, которые я видел, начинаются с создания расстояний между каждым из всех точек, что становится проблематичным для больших наборов данных. Есть тот, кто этого не делает? Или это какой-то частичный / приблизительный / ступенчатый подход? Какой алгоритм / реализация...

9
Велоспорт в алгоритме k-средних

Согласно вики, наиболее широко используемый критерий конвергенции - «назначение не изменилось». Мне было интересно, может ли ехать на велосипеде, если мы используем такой критерий сходимости? Я был бы рад, если бы кто-то указал ссылку на статью, которая приводит пример езды на велосипеде или...

9
Плотностная пространственная кластеризация приложений с кластеризацией шума (DBSCAN) в R

Этот вопрос начинался как « Кластеризация пространственных данных в R », а теперь перешел к вопросу DBSCAN. Поскольку ответы на первый вопрос подсказали, я искал информацию о DBSCAN и прочитал несколько документов о. Новые вопросы возникли. DBSCAN требует некоторых параметров, одним из которых...

9
Кластеризация с асимметричными измерениями расстояния

Как кластеризовать объект с асимметричной мерой расстояния? Например, предположим, что вы кластеризуете набор данных с днями недели как функцией - расстояние от понедельника до пятницы не совпадает с расстоянием от пятницы до понедельника. Как вы включаете это в меру расстояния алгоритма...

9
Должно ли расстояние быть «метрикой», чтобы иерархическая кластеризация действовала на нем?

Допустим, мы определяем расстояние, которое не является метрикой , между N элементами. На основании этого расстояния мы затем используем агломерационную иерархическую кластеризацию . Можем ли мы использовать каждый из известных алгоритмов (одиночная / максимальная / средняя связь и т. Д.), Чтобы...

9
Как количественно определить, сгруппированы ли данные 1D вокруг 1 или 3 значений?

У меня есть некоторые данные о времени между ударами сердца человека. Одним из признаков эктопических (дополнительных) ударов является то, что эти интервалы сгруппированы вокруг трех значений вместо одного. Как я могу получить количественную меру этого? Я хочу сравнить несколько наборов данных, и...

9
Поиск 2D искусственных данных для демонстрации свойств алгоритмов кластеризации

Я ищу наборы данных 2-мерных точек данных (каждый пункт данных является вектором двух значений (x, y)) следующих разных распределений и форм. Код для генерации таких данных также будет полезен. Я хочу использовать их для построения / визуализации работы некоторых алгоритмов кластеризации. Вот...

9
Как сравнить наблюдаемые и ожидаемые события?

Предположим, у меня есть одна выборка частот из 4 возможных событий: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 и у меня есть ожидаемые вероятности того, что мои события произойдут: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 С суммой наблюдаемых частот моих четырех событий (18) я могу рассчитать ожидаемые частоты...

9
Помогает ли предварительная кластеризация построить лучшую прогностическую модель?

Для задачи моделирования оттока я рассматривал: Вычислить k кластеров для данных Постройте k моделей для каждого кластера индивидуально. Основанием для этого является то, что нечего доказывать, что совокупность подписчиков однородна, поэтому разумно предположить, что процесс генерирования данных...

9
Выбор кластеров для k-средних: случай 1 кластера

Кто-нибудь знает хороший метод, чтобы определить, подходит ли даже кластеризация с использованием kmeans? То есть, что если ваш образец на самом деле является однородным? Я знаю, что нечто вроде смешанной модели (через mclust в R) предоставит статистику соответствия для случая кластера 1: k, но,...

9
Формула формулы инерции в скиките учиться

Я хотел бы закодировать кластеризацию kmeans в python, используя pandas и scikit learn. Чтобы выбрать хороший k, я хотел бы закодировать статистику разрыва из Tibshirani и др. 2001 ( pdf ). Я хотел бы знать, могу ли я использовать результат inertia_ от scikit и адаптировать формулу статистики...

9
Как создается график «Соединенные Штаты Reddit»?

Ниже приведен график из р. 202 из Dataclysm Кристиана Руддера , хотя это было сделано Джеймсом Доуделлом. Он иллюстрирует отношения между различными 200 верхними подразделами, которые представляют интерес на reddit.com, где пользователи могут отправлять ссылки, комментарии и голоса. Это похоже на...

9
Как найти веса для меры диссимилиарности

Я хочу узнать (вывести) веса атрибутов для моей меры отличия, которую я могу использовать для кластеризации. У меня есть несколько примеров(ai,bi)(ai,bi)(a_i,b_i) пар объектов, которые «похожи» (должны быть в одном кластере), а также некоторые примеры пар объектов, которые «не похожи» (не должны...

9
Выбор функций для проблем кластеризации

Я пытаюсь сгруппировать разные наборы данных, используя неконтролируемые алгоритмы (кластеризация). Проблема в том, что у меня много функций (~ 500) и небольшое количество дел (200-300). До сих пор я занимался только задачами классификации, для которых я всегда отмечал данные как обучающие наборы....

9
Применение стохастического вариационного вывода к байесовской смеси Гаусса

Я пытаюсь реализовать модель гауссовой смеси со стохастическим вариационным выводом, следуя этой статье . Это программа гауссовой смеси. Согласно статье, полный алгоритм стохастического вариационного вывода: И я все еще очень запутался в методе масштабирования до GMM. Во-первых, я думал, что...

9
Какая модель глубокого обучения может классифицировать категории, которые не являются взаимоисключающими

Примеры: у меня есть предложение в должностной инструкции: «Старший инженер Java в Великобритании». Я хочу использовать модель глубокого обучения, чтобы предсказать ее как 2 категории: English и IT jobs. Если я использую традиционную классификационную модель, она может предсказать только 1 метку с...