Вопросы с тегом «clustering»

Кластерный анализ или кластеризация - это задача группирования набора объектов таким образом, чтобы объекты в одной группе (называемой кластером) были более похожи (в некотором смысле или другом) друг на друга, чем на объекты в других группах (кластерах). , Это основная задача интеллектуального анализа данных и общий метод статистического анализа данных, используемый во многих областях, включая машинное обучение, распознавание образов, анализ изображений, поиск информации и т. Д.

133
Кластеризация K-средних для смешанных числовых и категориальных данных

Мой набор данных содержит ряд числовых атрибутов и один категориальный. Скажи NumericAttr1, NumericAttr2, ..., NumericAttrN, CategoricalAttr, где CategoricalAttrпринимает один из трех возможных значений: CategoricalAttrValue1, CategoricalAttrValue2или CategoricalAttrValue3. Я использую стандартную...

51
Кластеризация координат географического местоположения (широта, длинные пары)

Каков правильный подход и алгоритм кластеризации для геолокации? Я использую следующий код для кластеризации координат геолокации: import numpy as np import matplotlib.pyplot as plt from scipy.cluster.vq import kmeans2, whiten coordinates= np.array([ [lat, long], [lat, long], ... [lat, long] ]) x,...

30
Какая модель Keras лучше всего подходит для мультиклассовой классификации?

Я работаю на исследования, где необходимо классифицировать один из WINNER три события = ( win, draw, lose) WINNER LEAGUE HOME AWAY MATCH_HOME MATCH_DRAW MATCH_AWAY MATCH_U2_50 MATCH_O2_50 3 13 550 571 1.86 3.34 4.23 1.66 2.11 3 7 322 334 7.55 4.1 1.4 2.17 1.61 Моя текущая модель: def...

29
Почему xgboost намного быстрее, чем sklearn GradientBoostingClassifier?

Я пытаюсь обучить модели повышения градиента более чем на 50 тыс. Примеров с 100 числовыми функциями. XGBClassifierобрабатывает 500 деревьев в течение 43 секунд на моей машине, в то время как GradientBoostingClassifierобрабатывает только 10 деревьев (!) за 1 минуту и ​​2 секунды :( Я не стал...

23
Нужно ли стандартизировать ваши данные перед кластеризацией?

Нужно ли стандартизировать ваши данные перед кластером? В примере scikit learnо DBSCAN, здесь они делают это в строке: X = StandardScaler().fit_transform(X) Но я не понимаю, зачем это нужно. В конце концов, кластеризация не предполагает какого-либо конкретного распределения данных - это...

23
K-означает некогерентное поведение, выбирая K с помощью метода Elbow, BIC, объяснение дисперсии и силуэт

Я пытаюсь сгруппировать некоторые векторы с 90 функциями с помощью K-средних. Поскольку этот алгоритм запрашивает у меня количество кластеров, я хочу подтвердить свой выбор с помощью хорошей математики. Я ожидаю иметь от 8 до 10 кластеров. Функции масштабируются по Z-шкале. Метод локтя и дисперсия...

22
Расчет расхождения KL в Python

Я довольно новичок в этом и не могу сказать, что у меня есть полное понимание теоретических концепций этого. Я пытаюсь вычислить расхождение KL между несколькими списками точек в Python. Я использую http://scikit-learn.org/stable/modules/generated/sklearn.metrics.mutual_info_score.html, чтобы...

22
Как бороться с временными рядами, которые изменяют сезонность или другие закономерности?

Задний план Я работаю над набором данных временных рядов показаний счетчиков энергии. Длина ряда варьируется в зависимости от метра - у некоторых у меня есть несколько лет, у других - всего несколько месяцев и т. Д. Многие демонстрируют значительную сезонность, а часто и несколько слоев - в течение...

18
Лучший практический алгоритм для сходства предложений

У меня есть два предложения, S1 и S2, оба из которых имеют количество слов (обычно) ниже 15. Каковы наиболее практичные и успешные (машинное обучение) алгоритмы, которые, возможно, легко реализовать (нейронная сеть в порядке, если архитектура не такая сложная, как Google Inception и т. Д.). Я ищу...

18
Word2Vec против Sentence2Vec против Doc2Vec

Недавно я натолкнулся на термины Word2Vec , Sentence2Vec и Doc2Vec, и я был немного сбит с толку, поскольку я новичок в векторной семантике. Может кто-нибудь, пожалуйста, изложите различия в этих методах простыми словами. Каковы наиболее подходящие задачи для каждого...

18
Кластеризация на основе показателей сходства

Предположим , что мы имеем множество элементов Е и сходство ( не расстояние ) функция сим (е, Ej) между двумя элементами Ei, Ej ∈ E . Как мы можем (эффективно) кластеризовать элементы E , используя sim ? к -средних, например, требует заданных к , Навес Кластеризация требует два пороговых значений....

17
Алгоритмы для кластеризации текста

У меня проблема с кластеризацией огромного количества предложений по группам по смыслу. Это похоже на проблему, когда у вас много предложений и вы хотите сгруппировать их по значению. Какие алгоритмы предлагаются для этого? Я не знаю количество кластеров заранее (и по мере поступления новых данных...

17
K-means: Какие есть хорошие способы выбрать эффективный набор начальных центроидов?

Когда используется случайная инициализация центроидов, разные прогоны K-средних дают разные общие SSE. И это имеет решающее значение в производительности алгоритма. Каковы некоторые эффективные подходы к решению этой проблемы? Недавние подходы...

16
сделать морскую карту тепла больше

Я создаю corr()DF из оригинального DF. corr()ДФ вышел 70 X 70 и невозможно представить себе Heatmap ... sns.heatmap(df). Если я попытаюсь отобразить corr = df.corr(), таблица не умещается на экране, и я вижу все корреляции. Это способ печати всего, dfнезависимо от его размера, или контроля размера...

15
K-средства против онлайн K-средства

K-средних - это хорошо известный алгоритм кластеризации, но есть также онлайн-вариант такого алгоритма (онлайн-K-средства). Каковы плюсы и минусы этих подходов и когда следует отдавать предпочтение каждому из...

15
Кластеризация уникальных посетителей по useragent, ip, session_id

С учетом данных о доступе веб-сайта в форме session_id, ip, user_agentи, при желании, отметки времени, в соответствии с приведенными ниже условиями, как бы вы наилучшим образом сгруппировали сеансы в уникальных посетителей? session_id: это идентификатор для каждого нового посетителя. Срок его...

14
Быстрый k-означает, как алгоритм для 10 ^ 10 баллов?

Я хочу сделать кластеризацию k-средних на множестве 10-мерных точек. Подвох: 10 ^ 10 баллов . Я ищу только центр и размер самых больших кластеров (скажем, от 10 до 100 кластеров); Меня не волнует, в каком кластере заканчивается каждая точка. Использование k-средних определенно не важно; Я просто...

14
Использование атрибутов для классификации / кластеризации пользовательских профилей

У меня есть набор данных пользователей, покупающих продукты с веб-сайта. У меня есть следующие атрибуты: идентификатор пользователя, регион (штат) пользователя, идентификатор категории продукта, идентификатор ключевых слов продукта, идентификатор ключевых слов веб-сайта и объем продаж продукта....

13
Распознать грамматику в последовательности нечетких токенов

У меня есть текстовые документы, которые содержат в основном списки предметов. Каждый элемент представляет собой группу из нескольких токенов разных типов: FirstName, LastName, BirthDate, PhoneNumber, City, Occupation и т. Д. Маркер представляет собой группу слов. Предметы могут лежать на...

12
Классификация клиентов на основе 2 функций и временных рядов событий

Мне нужна помощь в том, что должно быть моим следующим шагом в алгоритме, который я разрабатываю. Из-за NDA я не могу раскрыть многое, но постараюсь быть обобщенным и понятным. В основном, после нескольких шагов в алгоритмах, у меня есть это: Для каждого имеющегося у меня клиента и событий, которые...