Поиск 2D искусственных данных для демонстрации свойств алгоритмов кластеризации

9

Я ищу наборы данных 2-мерных точек данных (каждый пункт данных является вектором двух значений (x, y)) следующих разных распределений и форм. Код для генерации таких данных также будет полезен. Я хочу использовать их для построения / визуализации работы некоторых алгоритмов кластеризации. Вот некоторые примеры:

штеффен
источник
Я голосую за cw;)
Штеффен
Аналогичный вопрос в линиях определенных наборов данных был закрыт здесь: stats.stackexchange.com/questions/38928/...
катафалк
Для SPSS я написал макрос, генерирующий кластеры (посетите мою страницу, см. «Создание кластеров»). Это, однако, не производит претенциозных форм, таких как кольца или спирали.
ttnphns

Ответы:

11

R поставляется с большим количеством наборов данных, и, похоже, не составит труда воспроизвести большинство примеров, которые вы привели, с несколькими строками кода. Также может оказаться полезным пакет mlbench , в частности наборы синтетических данных, начиная с mlbench.*. Некоторые иллюстрации приведены ниже.

введите описание изображения здесь

Вы найдете дополнительные примеры, посмотрев на представление задач кластера в CRAN. Например, пакет fpc имеет встроенный генератор для кластеризованных наборов эталонных данных «в форме лица» ( rFace).

введите описание изображения здесь

Аналогичные соображения применимы к Python, где вы найдете интересные тесты производительности и наборы данных для кластеризации с помощью scikit-learn .

Хранилище машинного обучения UCI также содержит множество наборов данных , но вам лучше смоделировать данные самостоятельно на выбранном вами языке.

Чл
источник
2

Этот тест игрушечной кластеризации содержит различные наборы данных в формате ARFF (может быть легко преобразован в CSV), в основном с наземными метками истинности. Тест должен проверить основные желаемые свойства алгоритмов кластеризации. Большинство наборов данных поступает из кластерных документов, таких как:

  • BIRCH - Чжан, Тянь, Рагху Рамакришнан и Мирон Ливны. «BIRCH: эффективный метод кластеризации данных для очень больших баз данных». Запись ACM SIGMOD. Том 25. № 2. ACM, 1996.
  • CURE - Гуха, Судипто, Раджив Растоги и Кюсек Шим. «CURE: эффективный алгоритм кластеризации для больших баз данных». Запись ACM SIGMOD. Том 27. № 2. ACM, 1998.
  • Хамелеон - Карипис, Георгий, Юи-Хонг Хан и Випин Кумар. «Хамелеон: иерархическая кластеризация с использованием динамического моделирования». Компьютер 32,8 (1999): 68-75.
  • Пакет фундаментальных проблем кластеризации - Ultsch, A .: Кластеризация с SOM: U * C, В учеб. Семинар по самоорганизующимся картам, Париж, Франция, (2005), с. 75-82
  • МОК - Хэндл, Джулия и Джошуа Ноулз. «Эволюционный подход к мультиобъективной кластеризации». Эволюционные вычисления, транзакции IEEE на 11.1 (2007): 56-76.
  • Надежная спектральная кластеризация на основе путей - Чанг, Хонг и Дит-Ян Йенг. «Робастная спектральная кластеризация на основе путей». Распознавание образов 41.1 (2008): 191-203.

данные кариписа данные cluto

оборота Томбарт
источник
1

ELKI поставляется с парой наборов данных (проверьте также модульные тесты, они содержат намного больше, чем на веб-сайте, вместе с настройками параметров).

Он также включает в себя довольно гибкий генератор данных.

ВЫЙТИ - Anony-Mousse
источник
1

Вот настраиваемый генератор кластеров. Он обращается только к определенному классу наборов данных, но он, безусловно, может быть использован для исследования алгоритма кластера.

Вот пример того, какие кластеры он может создать:

http://i.stack.imgur.com/vrCG5.png

Принадлежность кластера сохраняется в текстовом файле. Код с открытым исходным кодом под лицензией MIT.

Felix Dobslaw
источник
1

Этот скрипт Matlab генерирует 2D данные для кластеризации. Он принимает несколько параметров, чтобы сгенерированные данные соответствовали требованиям пользователя.

faken
источник
0

Я не могу поверить, что никто не упомянул данные Ириса Фишера.

Я не думаю, что видел технику кластеризации, которая не использует данные радужной оболочки глаза в качестве примера.

В r просто введите «ирис» для доступа к данным.

Вот пример хорошего (и типичного) ирисового сюжета: http://ygc.name/2011/12/24/ml-class-7-kmeans-clustering/

geneorama
источник