Сетевой анализ классических наборов данных

10

Существует несколько классических наборов данных для задач классификации / регрессии машинного обучения. Наиболее популярными являются:

Но кто-нибудь знает подобные наборы данных для анализа сетей / теории графов? Более конкретно - я ищу наборы данных золотого стандарта для сравнения / оценки / обучения:

  1. центральные меры;
  2. алгоритмы кластеризации сети.

Мне не нужен огромный список общедоступных сетей / графиков, но пара действительно обязательных наборов данных.

РЕДАКТИРОВАТЬ:

Достаточно сложно предоставить точные функции для «набора данных золотого стандарта», но вот некоторые соображения. Я думаю, что настоящий классический набор данных должен удовлетворять следующим критериям:

  • Многочисленные ссылки в статьях и учебниках;
  • Включение в известные пакеты программного обеспечения для сетевого анализа;
  • Достаточное время существования;
  • Использование в ряде курсов по анализу графов.

Что касается моей области интересов, мне также нужны помеченные классы для вершин и / или предварительно вычисленные (или предопределенные) «оценки авторитета» (т. Е. Оценки центральности). Задав этот вопрос, я продолжил поиск, и вот несколько подходящих примеров:

  • Zachary's Karate Club : введен в 1977 году, цитируется более 1,5 тыс. Раз (согласно Google Scholar), вершины имеют атрибут Faction (который можно использовать для кластеризации).
  • Erdos Collaboration Network : к сожалению, я не нашел эту сеть в виде файла данных, но она довольно известна, и если кто-то обогатит сеть данными специализаций математиков, ее также можно будет использовать для тестирования алгоритмов кластеризации.
sobach
источник
1
Я думаю, что вы могли бы улучшить этот вопрос, определив «набор данных золотого стандарта» более объективно. Что делает его "должен знать"? Стоит ли ссылаться на него в ряде учебников? Используется в ряде опубликованных моделей? И т.д. В противном случае ответы будут субъективными И они будут меняться с течением времени. Плохая комбинация здесь.
эфир

Ответы:

5

То, что вы ищете, можно найти в KONECT (веб-сайт не работает, так как я пишу это, но это должно быть исправлено в ближайшее время!). Это почти самый полный сбор данных для анализа сети. Но вопрос в том, какой из них более стандартный ?

Ну, нет четкого ответа, кроме Захарийского Клуба Каратэ!

Если вы сделаете обзор литературы по алгоритмам обнаружения сообщества, то увидите, что почти все блестящие документы используют разные сети. Мое предложение проходит через то, что Андреа Ланчинетти и Санто Фортунато сделали для сравнительного анализа графиков. Они предложили несколько алгоритмов генерации эталонных графов, например, этот .

Надеюсь, поможет :)

Касра Маншаи
источник
Вы можете найти это через машину обратного хода, это ваш лучший друг web.archive.org/web/20150402165739/http://konect.uni-koblenz.de/…
Альберт
4

Может быть, вы можете проверить здесь - http://snap.stanford.edu/data/

Для каждого набора данных вы также увидите ссылки на работы, где они были использованы

Алексей Григорьев
источник
1

Единственное, о чем я знаю, это данные тестов для графических баз данных, таких как Neo4j.

Вы можете найти ссылки, похожие на эту: http://istc-bigdata.org/index.php/benchmarking-graph-databases/

где вы можете найти данные для проверки сетевого анализа и теории графов.

Кроме того, вы можете играть с API Twitter / Facebook, чтобы собрать свои собственные данные. Это также предложение, если вы не можете найти данные, которые вы ищете.

adesantos
источник
Спасибо, но это не совсем то, что я ищу. Смотрите обновление для более подробной информации.
Собач