Вопросы с тегом «clustering»

16
Допущения кластерного анализа

Извиняюсь за рудиментарный вопрос, я новичок в этой форме анализа и до сих пор очень ограниченно понимаю принципы. Мне просто интересно, применяются ли многие параметрические допущения для многомерных / одномерных тестов для кластерного анализа? Многие источники информации, которые я читал...

16
Когда мы объединяем уменьшение размерности с кластеризацией?

Я пытаюсь выполнить кластеризацию на уровне документов. Я построил матрицу частот термина-документа, и я пытаюсь кластеризовать эти высокоразмерные векторы с помощью k-средних. Вместо непосредственной кластеризации я сначала применил разложение сингулярных векторов LSA (скрытый семантический...

16
Какой алгоритм реализует ward.D в hclust (), если он не является критерием Ward?

Тот, который используется опцией «ward.D» (эквивалентно единственной опции «Ward» в версиях R <= 3.0.3), не реализует критерий кластеризации Ward (1963), тогда как опция «ward.D2» реализует этот критерий ( Муртах и ​​Лежандр 2014). (...

16
Кластеризация 1D данных

У меня есть набор данных, я хочу создать кластеры на этих данных на основе только одной переменной (нет пропущенных значений). Я хочу создать 3 кластера на основе этой одной переменной. Какой алгоритм кластеризации использовать, k-means, EM, DBSCAN и т. Д.? Мой главный вопрос заключается в том, при...

15
Text Mining: как кластеризовать тексты (например, новостные статьи) с помощью искусственного интеллекта?

Я построил некоторые нейронные сети (MLP (полностью подключенные), Elman (рекуррентные)) для различных задач, таких как игра в понг, классификация рукописных цифр и прочее ... Кроме того, я попытался создать несколько первых сверточных нейронных сетей, например, для классификации многозначных...

15
Кластеризация: я должен использовать расхождение Дженсена-Шеннона или его квадрат?

Я группирую распределения вероятностей, используя алгоритм распространения сродства , и планирую использовать расхождение Дженсена-Шеннона в качестве метрики расстояния. Правильно ли использовать сам JSD в качестве расстояния или JSD в квадрате? Почему? Какие различия могут возникнуть в результате...

15
Можно ли использовать расстояние Манхэттена с межкластерными связями Уорда в иерархической кластеризации?

Я использую иерархическую кластеризацию для анализа данных временных рядов. Мой код реализован с использованием функции MathematicaDirectAgglomerate[...] , которая генерирует иерархические кластеры с учетом следующих входных данных: матрица расстояний D название метода, используемого для...

15
Как построить вывод данных кластеризации?

Я попытался кластеризовать набор данных (набор меток) и получил 2 кластера. Я хотел бы представить это графически. Немного запутался в представлении, так как у меня нет координат (x, y). Также ищем функцию MATLAB / Python для этого. РЕДАКТИРОВАТЬ Я думаю, что размещение данных делает вопрос более...

15
Что такое хороший метод для кластеризации коротких текстов?

Я работаю над проблемой кластеризации текста. Данные содержат несколько предложений. Есть хороший алгоритм, который достигает высокой точности на коротком тексте? Можете ли вы предоставить хорошие ссылки? Алгоритмы, такие как KMeans, спектральная кластеризация не работают хорошо для этой проблемы....

15
Как рассчитать чистоту?

В кластерном анализе, как мы рассчитываем чистоту? Какое уравнение? Я не ищу код, чтобы сделать это для меня. Пусть - кластер k, а - класс j.ωkωk\omega_kcjcjc_j Так чистота практически точность? похоже, что суммирование действительно классифицированного класса на кластер по размеру выборки....

15
Какова интуиция за сменными образцами при нулевой гипотезе?

Тесты перестановки (также называемые тестом рандомизации, тестом повторной рандомизации или точным тестом) очень полезны и оказываются полезными, когда предположение о нормальном распределении, требуемое, например, t-testне выполняется, и когда преобразование значений путем ранжирования...

15
Какой метод множественного сравнения использовать для модели lmer: lsmeans или glht?

Я анализирую набор данных, используя модель смешанных эффектов с одним фиксированным эффектом (условием) и двумя случайными эффектами (участник из-за дизайна объекта и пары). Модель была сгенерирована с lme4пакетом: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Затем я...

15
Точность градиентной машины уменьшается с увеличением числа итераций

Я экспериментирую с алгоритмом машины повышения градиента через caretпакет в R. Используя небольшой набор данных для поступления в колледж, я запустил следующий код: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create...

15
Временные ряды и обнаружение аномалий

Я хотел бы настроить алгоритм обнаружения аномалии во временных рядах, и я планирую использовать для этого кластеризацию. Почему я должен использовать матрицу расстояний для кластеризации, а не необработанные данные временных рядов ?, Для обнаружения аномалии я буду использовать кластеризацию на...

15
Как подобрать модель смеси для кластеризации

У меня есть две переменные - X и Y, и мне нужно сделать кластер максимальным (и оптимальным) = 5. Давайте идеальный график переменных выглядит следующим образом: Я хотел бы сделать 5 кластеров из этого. Что-то вроде этого: Таким образом, я думаю, что это смешанная модель с 5 кластерами. Каждый...

14
Дирихле Процессы кластеризации: как бороться с метками?

Вопрос: Каков стандартный способ кластеризации данных с использованием процесса Дирихле? При использовании выборочных кластеров Гиббса во время отбора проб появляются и исчезают. Кроме того, у нас есть проблема идентификации, так как апостериорное распределение инвариантно к кластерным связям....

14
к-значит против к-медиана?

Я знаю, что есть алгоритм кластеризации k-средних и k-медиана. Один использует среднее в качестве центра кластера, а другой использует медиану. Мой вопрос: когда и где использовать...

14
Каковы «горячие алгоритмы» для машинного обучения?

Это наивный вопрос от того, кто начинает изучать машинное обучение. Я читаю в эти дни книгу «Машинное обучение: алгоритмическая перспектива» от Марсленда. Я считаю ее полезной в качестве вводной книги, но теперь я хотел бы перейти к продвинутым алгоритмам, которые в настоящее время дают лучшие...

14
Почему мы используем k-средства вместо других алгоритмов?

Я исследовал k-means, и вот что я получил: k-means - это один из самых простых алгоритмов, который использует неконтролируемый метод обучения для решения известных проблем кластеризации. Это работает очень хорошо с большими наборами данных. Однако есть и недостатки K-Means, которые: Сильная...