Я ищу наборы данных 2-мерных точек данных (каждый пункт данных является вектором двух значений (x, y)) следующих разных распределений и форм. Код для генерации таких данных также будет полезен. Я хочу использовать их для построения / визуализации работы некоторых алгоритмов кластеризации. Вот некоторые примеры:
9
Ответы:
R поставляется с большим количеством наборов данных, и, похоже, не составит труда воспроизвести большинство примеров, которые вы привели, с несколькими строками кода. Также может оказаться полезным пакет mlbench , в частности наборы синтетических данных, начиная с
mlbench.*
. Некоторые иллюстрации приведены ниже.Вы найдете дополнительные примеры, посмотрев на представление задач кластера в CRAN. Например, пакет fpc имеет встроенный генератор для кластеризованных наборов эталонных данных «в форме лица» (
rFace
).Аналогичные соображения применимы к Python, где вы найдете интересные тесты производительности и наборы данных для кластеризации с помощью scikit-learn .
Хранилище машинного обучения UCI также содержит множество наборов данных , но вам лучше смоделировать данные самостоятельно на выбранном вами языке.
источник
Вот несколько наборов данных, предназначенных именно для этой задачи:
Набор фундаментальных проблем кластеризации Ульча
источник
Этот тест игрушечной кластеризации содержит различные наборы данных в формате ARFF (может быть легко преобразован в CSV), в основном с наземными метками истинности. Тест должен проверить основные желаемые свойства алгоритмов кластеризации. Большинство наборов данных поступает из кластерных документов, таких как:
источник
ELKI поставляется с парой наборов данных (проверьте также модульные тесты, они содержат намного больше, чем на веб-сайте, вместе с настройками параметров).
Он также включает в себя довольно гибкий генератор данных.
источник
Вот настраиваемый генератор кластеров. Он обращается только к определенному классу наборов данных, но он, безусловно, может быть использован для исследования алгоритма кластера.
Вот пример того, какие кластеры он может создать:
Принадлежность кластера сохраняется в текстовом файле. Код с открытым исходным кодом под лицензией MIT.
источник
Этот скрипт Matlab генерирует 2D данные для кластеризации. Он принимает несколько параметров, чтобы сгенерированные данные соответствовали требованиям пользователя.
источник
Я не могу поверить, что никто не упомянул данные Ириса Фишера.
Я не думаю, что видел технику кластеризации, которая не использует данные радужной оболочки глаза в качестве примера.
В r просто введите «ирис» для доступа к данным.
Вот пример хорошего (и типичного) ирисового сюжета: http://ygc.name/2011/12/24/ml-class-7-kmeans-clustering/
источник