Вопросы с тегом «k-means»

21
Если кластеризация k-средних является формой моделирования гауссовой смеси, можно ли ее использовать, когда данные не являются нормальными?

Я читаю Бишопа об алгоритме EM для GMM и взаимосвязи между GMM и k-means. В этой книге говорится, что k-means - это жестко заданная версия GMM. Мне интересно, означает ли это, что если данные, которые я пытаюсь кластеризовать, не являются гауссовыми, я не могу использовать k-means (или, по крайней...

20
Доказательство сходимости k-средних

Для задания меня попросили предоставить доказательство того, что k-means сходится за конечное число шагов. Вот что я написал: CCCE(C)=∑xmini=1k∥x−ci∥2E(C)=∑xmini=1k‖x−ci‖2E(C)=\sum_{\mathbf{x}}\min_{i=1}^{k}\left\Vert \mathbf{x}-\mathbf{c}_{i}\right\Vert ^{2}E(C)E(C)E(C) Шаг 2 относится к шагу,...

20
Кластеризация корреляционной матрицы

У меня есть корреляционная матрица, в которой указано, как каждый элемент соотносится с другим элементом. Следовательно, для N элементов у меня уже есть N * N корреляционная матрица. Используя эту корреляционную матрицу, как кластеризовать N элементов в M бинах, чтобы я мог сказать, что Nk...

19
Как понять недостатки иерархической кластеризации?

Может кто-нибудь объяснить плюсы и минусы иерархической кластеризации? Имеет ли иерархическая кластеризация те же недостатки, что и K? Каковы преимущества иерархической кластеризации по сравнению с K средствами? Когда мы должны использовать средства K вместо иерархической кластеризации и наоборот?...

18
Почему статистика разрыва для k-средних предполагает один кластер, хотя, очевидно, их два?

Я использую K-средства для кластеризации своих данных и искал способ предложить «оптимальный» номер кластера. Статистика зазоров, кажется, является распространенным способом найти хороший номер кластера. По некоторым причинам он возвращает 1 в качестве оптимального номера кластера, но когда я...

17
Почему k-means не дает глобального минимума?

Я читал, что алгоритм k-средних сходится только к локальному минимуму, а не к глобальному минимуму. Почему это? Я могу логически подумать о том, как инициализация может повлиять на окончательную кластеризацию, и есть вероятность неоптимальной кластеризации, но я не нашел ничего, что математически...

15
Влияет ли проклятие размерности на некоторые модели больше, чем на другие?

Места, которые я читал о проклятии размерности, объясняют его в первую очередь в связи с kNN и линейными моделями в целом. Я регулярно вижу топ-рейтингов в Kaggle, использующих тысячи функций в наборе данных, который вряд ли имеет 100 тыс. Точек данных. Они в основном используют Boosted деревья и...

15
Точность градиентной машины уменьшается с увеличением числа итераций

Я экспериментирую с алгоритмом машины повышения градиента через caretпакет в R. Используя небольшой набор данных для поступления в колледж, я запустил следующий код: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create...

14
Почему k-means не оптимизировано с использованием градиентного спуска?

Я знаю, что k-средних обычно оптимизируется с использованием максимизации ожиданий . Однако мы можем оптимизировать его функцию потерь так же, как мы оптимизируем любую другую! Я нашел несколько работ, которые на самом деле используют стохастический градиентный спуск для больших k-средних, но я не...

14
Почему мы используем k-средства вместо других алгоритмов?

Я исследовал k-means, и вот что я получил: k-means - это один из самых простых алгоритмов, который использует неконтролируемый метод обучения для решения известных проблем кластеризации. Это работает очень хорошо с большими наборами данных. Однако есть и недостатки K-Means, которые: Сильная...

14
Есть ли функция в R, которая берет центры кластеров, которые были найдены, и назначает кластеры для нового набора данных

У меня есть две части многомерного набора данных, давайте назовем их trainи test. И я хочу построить модель, основанную на наборе данных поезда, а затем проверить ее на наборе тестовых данных. Количество кластеров известно. Я попытался применить кластеризацию k-средних в R, и я получил объект,...

14
Реализация k-средних с пользовательской матрицей расстояний на входе

Может кто-нибудь указать мне реализацию k-средних (было бы лучше, если бы в Matlab), который может принимать матрицу расстояний на входе? Для стандартной реализации Matlab требуется матрица наблюдения на входе, и пользовательское изменение меры подобия невозможно....

14
к-значит против к-медиана?

Я знаю, что есть алгоритм кластеризации k-средних и k-медиана. Один использует среднее в качестве центра кластера, а другой использует медиану. Мой вопрос: когда и где использовать...

14
Соответствие ANOVA после кластерного анализа k-средних

Уведомление после таблицы ANOVA после анализа K-средних указывает на то, что уровни значимости не следует рассматривать как критерий равных средних, поскольку кластерное решение было получено на основе евклидова расстояния для максимизации расстояния. Какой тест я должен использовать, чтобы...

13
Нужно ли отбрасывать переменные, которые коррелированы / коллинеарны перед запуском kmeans?

Я использую kmeans для определения групп клиентов. У меня есть около 100 переменных для определения кластеров. Каждая из этих переменных представляет собой процент расходов клиента на категорию. Итак, если у меня есть 100 категорий, у меня есть эти 100 переменных, так что сумма этих переменных...

13
Инициализация K-средних центров с помощью случайных подвыборок набора данных?

Если у меня есть определенный набор данных, насколько разумно было бы инициализировать центры кластеров, используя случайные выборки этого набора данных? Например, предположим, я хочу 5 clusters. Я, 5 random samplesскажем, size=20%из оригинального набора данных. Могу ли я затем взять среднее...

13
Кластеризация вероятностных распределений - методы и метрики?

У меня есть несколько точек данных, каждая из которых содержит 5 векторов агломерированных дискретных результатов, результаты каждого вектора, сгенерированные различным распределением (конкретный вид, в котором я не уверен, мое лучшее предположение - Вейбулл, с параметром формы, изменяющимся где-то...