Вопросы с тегом «k-means»

133
Кластеризация K-средних для смешанных числовых и категориальных данных

Мой набор данных содержит ряд числовых атрибутов и один категориальный. Скажи NumericAttr1, NumericAttr2, ..., NumericAttrN, CategoricalAttr, где CategoricalAttrпринимает один из трех возможных значений: CategoricalAttrValue1, CategoricalAttrValue2или CategoricalAttrValue3. Я использую стандартную...

51
Кластеризация координат географического местоположения (широта, длинные пары)

Каков правильный подход и алгоритм кластеризации для геолокации? Я использую следующий код для кластеризации координат геолокации: import numpy as np import matplotlib.pyplot as plt from scipy.cluster.vq import kmeans2, whiten coordinates= np.array([ [lat, long], [lat, long], ... [lat, long] ]) x,...

29
Почему xgboost намного быстрее, чем sklearn GradientBoostingClassifier?

Я пытаюсь обучить модели повышения градиента более чем на 50 тыс. Примеров с 100 числовыми функциями. XGBClassifierобрабатывает 500 деревьев в течение 43 секунд на моей машине, в то время как GradientBoostingClassifierобрабатывает только 10 деревьев (!) за 1 минуту и ​​2 секунды :( Я не стал...

23
K-означает некогерентное поведение, выбирая K с помощью метода Elbow, BIC, объяснение дисперсии и силуэт

Я пытаюсь сгруппировать некоторые векторы с 90 функциями с помощью K-средних. Поскольку этот алгоритм запрашивает у меня количество кластеров, я хочу подтвердить свой выбор с помощью хорошей математики. Я ожидаю иметь от 8 до 10 кластеров. Функции масштабируются по Z-шкале. Метод локтя и дисперсия...

17
K-means: Какие есть хорошие способы выбрать эффективный набор начальных центроидов?

Когда используется случайная инициализация центроидов, разные прогоны K-средних дают разные общие SSE. И это имеет решающее значение в производительности алгоритма. Каковы некоторые эффективные подходы к решению этой проблемы? Недавние подходы...

16
сделать морскую карту тепла больше

Я создаю corr()DF из оригинального DF. corr()ДФ вышел 70 X 70 и невозможно представить себе Heatmap ... sns.heatmap(df). Если я попытаюсь отобразить corr = df.corr(), таблица не умещается на экране, и я вижу все корреляции. Это способ печати всего, dfнезависимо от его размера, или контроля размера...

15
K-средства против онлайн K-средства

K-средних - это хорошо известный алгоритм кластеризации, но есть также онлайн-вариант такого алгоритма (онлайн-K-средства). Каковы плюсы и минусы этих подходов и когда следует отдавать предпочтение каждому из...

14
Быстрый k-означает, как алгоритм для 10 ^ 10 баллов?

Я хочу сделать кластеризацию k-средних на множестве 10-мерных точек. Подвох: 10 ^ 10 баллов . Я ищу только центр и размер самых больших кластеров (скажем, от 10 до 100 кластеров); Меня не волнует, в каком кластере заканчивается каждая точка. Использование k-средних определенно не важно; Я просто...

11
Существуют ли хорошие готовые языковые модели для Python?

Я создаю прототип приложения и мне нужна языковая модель для вычисления недоумения в некоторых сгенерированных предложениях. Есть ли в Python обученная языковая модель, которую я могу легко использовать? Что-то простое, как model = LanguageModel('en') p1 = model.perplexity('This is a well...

10
Сходимость в методе К-средних Хартиган-Вонга и других алгоритмах

Я пытался понять различные алгоритмы кластеризации k-средних, которые в основном реализованы в statsпакете Rязыка. Я понимаю алгоритм Ллойда и онлайн-алгоритм МакКуина. Я понимаю их следующим образом: Алгоритм Ллойда: Первоначально выбираются случайные наблюдения «k», которые будут служить...