Я хочу кластеризовать ~ 22000 баллов. Многие алгоритмы кластеризации работают лучше при более высоком качестве начальных догадок. Какие существуют инструменты, которые могут дать мне хорошее представление о приблизительной форме данных?
Я действительно хочу иметь возможность выбирать свою собственную метрику расстояния, поэтому программа, в которую я могу подать список попарных расстояний, была бы просто идеальной. Я хотел бы иметь возможность сделать что-то вроде выделения области или кластера на дисплее и получить список точек данных в этой области.
Свободное программное обеспечение предпочтительнее, но у меня уже есть SAS и MATLAB.
источник
Изучение результатов кластеризации в больших измерениях может быть сделано в R с использованием пакетов clusterfly и gcExplorer . Ищите больше здесь .
источник
(Месяцы спустя), хороший способ изобразить k-кластеры и увидеть влияние различных k - это построить минимальное остовное дерево и посмотреть на самые длинные ребра. Например,
Здесь 10 кластеров с 9 самыми длинными ребрами 855 899 942 954 1003 1005 1069 1134 1267.
Для 9 кластеров сверните ребро голубого 855; для 8 - фиолетовый 899; и так далее.
- Уэйн, Жадные Алгоритмы .
22000 точек, 242M попарных расстояний, занимают ~ 1 гигабайт (float32): может подойти.
Чтобы просмотреть многомерное дерево или график в 2d, см. Многомерное масштабирование (также из Kruskal) и огромную литературу по уменьшению размеров. Однако при dim> 20, скажем, большинство расстояний будет близко к медиане, поэтому я считаю, что уменьшение размеров не может работать там.
источник
У меня был хороший опыт работы с KNIME во время одного из моих проектов. Это отличное решение для быстрой разведки и графического анализа. Кроме того, он обеспечивает бесшовную интеграцию модулей R и Weka.
источник
Также взгляните на ELKI , программное обеспечение для добычи данных с открытым исходным кодом. Wikimedia commons имеет галерею с изображениями, созданными с помощью ELKI , многие из которых связаны с кластерным анализом.
источник
Взгляните на Cluster 3.0 . Я не уверен, что он будет делать все, что вы хотите, но он довольно хорошо задокументирован и позволяет выбирать из нескольких метрик расстояния. Часть визуализации осуществляется через отдельную программу под названием Java TreeView ( скриншот ).
источник
GGobi выглядит интересно для этого. Другой подход может заключаться в том, чтобы рассматривать ваши матрицы подобия / обратного расстояния как матрицы смежности сети и включать их в процедуру анализа сети (например, либо igraph в R, либо, возможно, Pajek). При таком подходе я бы экспериментировал с разрезанием отрезания расстояний между узлами в двойную связь в различных точках резания.
источник
Weka - это программа с открытым исходным кодом для интеллектуального анализа данных (wirtten и расширяемая в Java), Orange - это программа с открытым исходным кодом и библиотека для интеллектуального анализа данных и машинного обучения (написана на Python). Они оба обеспечивают удобное и эффективное визуальное исследование многомерных данных.
источник
Бесплатное числовое программное обеспечение DataMelt включает библиотеку Java под названием JMinHep. Пожалуйста, посмотрите руководство в разделе «Кластеризация данных». Он предоставляет графический интерфейс для визуализации многомерных точек данных в XY и запускает ряд алгоритмов кластеризации данных.
источник