Публично доступные наборы данных

168

Одной из распространенных проблем в науке о данных является сбор данных из различных источников в несколько очищенном (полуструктурированном) формате и объединение метрик из различных источников для проведения анализа более высокого уровня. Глядя на усилия других людей, особенно другие вопросы на этом сайте, кажется, что многие люди в этой области делают несколько повторяющуюся работу. Например, анализ твитов, постов в Facebook, статей в Википедии и т. Д. Является частью большой проблемы с большими данными.

Некоторые из этих наборов данных доступны с помощью общедоступных API, предоставляемых сайтом провайдера, но обычно в этих API отсутствует какая-либо ценная информация или показатели, и каждый должен делать один и тот же анализ снова и снова. Например, хотя кластеризация пользователей может зависеть от разных вариантов использования и выбора функций, но наличие базовой кластеризации пользователей Twitter / Facebook может быть полезным во многих приложениях больших данных, которые не предоставляются API и не доступны публично в независимых наборах данных. ,

Существует ли какой-либо индекс или общедоступный сайт размещения наборов данных, содержащий ценные наборы данных, которые можно повторно использовать для решения других проблем с большими данными? Я имею в виду что-то вроде GitHub (или группу сайтов / общедоступных наборов данных или хотя бы полный список) для науки о данных. Если нет, то каковы причины отсутствия такой платформы для науки о данных? Коммерческая ценность данных, необходимо часто обновлять наборы данных, ...? Разве у нас не может быть модели с открытым исходным кодом для обмена наборами данных, разработанной для ученых данных?

Амир Али Акбари
источник
18
Этот вопрос может быть более уместным на выделенном opendata.SE . Тем не менее, я скрещиваю пальцы за дата , которая стремится стать «Git для данных».
Ojdo
2
@ojdo Спасибо, я никогда не слышал о opendata.SE раньше, я также нашел этот интересный (и очень похожий) вопрос там.
Амир Али Акбари
Я не нашел хороших бесплатных исчерпывающих наборов данных для типичных приложений Business Intelligence. Microsoft Contoso BI Demo Dataset для розничной торговли от официальной загрузки Майкрософт Центр загрузка работает с некоторыми продуктами Microsoft (см AndyGett на SharePoint и другой Business Software ), но я не вижу никакого простого SQL или CSV дампы него, ни какой - либо информацию о лицензии ,
nealmcb
1
Вы присоединились к Open Stack Exchange? opendata.stackexchange.com
sss4r

Ответы:

88

На самом деле существует очень разумный список общедоступных наборов данных, поддерживаемых различными предприятиями / источниками.

Некоторые из них ниже:

Теперь два соображения по вашему вопросу. Первый, касающийся политики совместного использования баз данных. Исходя из личного опыта, есть некоторые базы данных, которые нельзя сделать общедоступными ни для вовлечения ограничений конфиденциальности (как для некоторой информации в социальных сетях), ни для правительственной информации (такой как базы данных системы здравоохранения).

Другой момент касается использования / применения набора данных. Хотя некоторые базы могут быть переработаны в соответствии с потребностями приложения, было бы замечательно иметь хорошую организацию наборов данных по назначению. Систематика должна включать в себя анализ социальных графов, НИКАКИЕ гарантии добычи, классификацию, а также множество других областей исследования может быть.

Рубенс
источник
64

Обновить:

Kaggle.com , дом современных энтузиастов науки о данных и машинного обучения :), открыл собственный репозиторий наборов данных .


Помимо перечисленных источников.

Некоторые наборы данных социальных сетей:

Есть много источников, перечисленных в Stats SE:

IharS
источник
37

Существует множество открыто доступных наборов данных, один из которых часто упускают из виду - data.gov . Как упоминалось ранее, Freebase великолепен, как и все примеры, опубликованные @Rubens.

MCP_infiltrator
источник
35

Freebase - это бесплатная база данных, управляемая сообществом, которая охватывает множество интересных тем и содержит около 2,5 миллиардов фактов в машиночитаемом формате. Он также имеет хороший API для выполнения запросов данных.

Вот еще один скомпилированный список открытых наборов данных: http://www.datapure.co/open-data-sets

Константин В. Салихов
источник
Freebase закрывается, и его база данных скоро перейдет на Wikidata .
cynddl
25

В частности, для данных временных рядов Quandl является отличным ресурсом - легко просматриваемым каталогом (в основном) чистых временных рядов.

Одна из их самых крутых возможностей - это цены на акции с открытыми данными, то есть финансовые данные, которые можно редактировать в стиле вики и не обременены лицензированием.

Azza-BAZOO
источник
20

Enigma - это хранилище общедоступных наборов данных. Его бесплатный план предлагает общедоступный поиск данных с 10 000 вызовов API в месяц. Не все общедоступные базы данных перечислены, но список достаточно для общих случаев.

Я использовал его для академических исследований, и это сэкономило мне много времени.


Другим интересным источником данных является проект @unitedstates , содержащий данные и инструменты для их сбора, о Соединенных Штатах (члены Конгресса, географические формы…).

cynddl
источник
18

Я хотел бы указать на перепись открытых данных . Это инициатива Фонда Открытых Знаний, основанная на вкладах сторонников открытых данных и экспертов со всего мира.

Ценность открытой переписи данных - это открытые, ориентированные на сообщество и систематические усилия по сбору и обновлению базы данных открытых наборов данных по всему миру по стране и, в некоторых случаях, например, по США, на уровне города .

Кроме того, он дает возможность сравнить различные страны и города в выбранных областях интересов.

tomaskazemekas
источник
18

Существует также другой ресурс, предоставленный The Guardian, British Daily на их сайте. Все наборы данных, публикуемые журналом Guardian Datablog, размещаются. Наборы данных, связанные со счетами футбольных клубов Премьер-лиги, сведения об инфляции и ВВП Великобритании, данные о наградах Грэмми и т. Д. Наборы данных доступны по адресу

Еще немного ресурсов. Некоторые наборы данных представлены в формате R, или существуют R-запятые для прямого импорта данных в R.

Бинга
источник
17

Пользовательский поиск Google

Вы можете использовать пользовательский поиск Google для наборов данных:

Пользовательский поиск Google: наборы данных

Он включает в себя 230 источников и метаисточников наборов данных, включая все упомянутые в этом вопросе. Пожалуйста, не стесняйтесь исключать .gov и любые другие веб-сайты из результатов, добавив "-.gov" или "-site.com" в строку поиска. Другие операторы поиска Google работают.

Не стесняйтесь обращаться ко мне, если у вас есть идеи, какие сайты добавить.

IOGDS

Следующая служба классифицирует более 1 000 000 общедоступных наборов данных:

IOGDS: Международный поиск данных по открытому правительству

Антон Тарасенко
источник
Какие параметры для пользовательской ссылки поиска вы указали? Поиск в списке сайтов, ключевых слов и т. Д.?
Амир Али Акбари
@AmirAliAkbari Поиск в таких источниках, как Data.gov, Quandl и других крупных хранилищах данных.
Антон Тарасенко
16

Поздний ответ, но вот эклектичный список из 100+ интересных наборов данных

Сообщение в блоге весело и легко читается (у меня нет принадлежности). Стоит пролистать и почистить несколько сверху:

  • Последние слова каждого заключенного из Техаса, казненные с 1984 года

  • 10000 аннотированных изображений кошек

  • 2,2 миллиона шахматных матчей

philshem
источник
15

Знаете ли вы о тестах PUMA и загрузках наборов данных? https://sites.google.com/site/farazahmad/pumadatasets

Это включает в себя следующее:

  1. TeraSort
  2. Википедия
  3. Элемент списка
  4. Автообъединение
  5. Примыкание-List
  6. Фильмы-базы данных
  7. Занимает-Inverted-Index
algarecu
источник
15

Правительство Великобритании предоставляет отличный источник неличных данных, собираемых в государственных ведомствах: http://data.gov.uk

Федерер
источник
14

Я новичок в этом форуме. Звонил в конце по этому вопросу. Я веду (я являюсь соучредителем) каталог общедоступных порталов данных. В настоящее время в списке насчитывается более 1000 порталов на международном, федеральном, штатном, муниципальном и академическом уровнях по всему миру.

http://www.opengeocode.org/opendata/

Эндрю - OpenGeoCode
источник
14

Я удивлен, что никто не упомянул об этом, поскольку это кажется довольно очевидным: http://www.kaggle.com постоянно имеет новые и очень интересные наборы данных. Информация считается активом, поэтому компании часто не хотят публиковать эти данные (а также вопросы конфиденциальности). Kaggle дает вам данные, и они надеются, что вы взамен решите с ними проблемы бизнеса.

Баран
источник
14

Наборы данных

Наборы данных из удивительной информации

chenrui333
источник
1
Можете ли вы предоставить нам некоторую информацию по обоим наборам данных / ссылкам? Это действительно облегчит бремя тех, кто ищет конкретные типы данных. Взгляните на другие посты, чтобы узнать, какого рода информация отсутствует в ваших ссылках.
Рубенс
11

Как вы упомянули, API - это сложная часть, а не данные. Похоже, что Quandl решает эту проблему, предоставляя более 10 миллионов общедоступных наборов данных в рамках одного простого RESTful API. Если программирование вам не по силам, есть бесплатный инструмент, позволяющий легко загружать данные в Excel. Кроме того, если вы делаете наслаждаться программирования, есть несколько нативные библиотеки R, Python, Java и многое другое .

Брайан Риск
источник
11

Чтобы добавить в возможно бесконечный список:

как упоминается Cyndd, есть Wikidata ,

и для кураторских структурированных знаний, Wolfram Alpha .

image_doctor
источник
11

Я наткнулся на эту коллекцию на Github. Коллекция также классифицирована.

https://github.com/caesar0301/awesome-public-datasets

И для части относительно

Не может ли модель с открытым исходным кодом для совместного использования наборов данных, разработанная для ученых данных?

Вы можете обратиться к руководству группы Leek для обмена данными.

Шагун Содхани
источник
10

Не все правительственные данные указаны на Data.gov - Фонд Sunlight собрать набор таблиц обратно в феврале описания множества имеющихся данных.

Стив Каллестад
источник
9

Еще один источник данных, который я не увидел в списке, - это проект GDELT . С сайта:

Проект GDELT отслеживает мировые трансляции, печатные и веб-новости почти со всех уголков каждой страны на более чем 100 языках и выявляет людей, места, организации, количество, темы, источники и события, которые движут нашим глобальным обществом каждую секунду каждого дня, создание бесплатной открытой платформы для вычислений по всему миру.

dvdnglnd
источник
8

Этот subreddit перечисляет много известных наборов данных

Reddit Datasets

В этом субреддите есть много запросов к наборам данных, на некоторые из которых дан ответ.

Какой-то парень
источник
6

Я создал репозиторий GitHub для этого. Наборы данных невелики, но представляют собой минимальные примеры, предназначенные для практики и изучения методов прогнозного моделирования, которые затем можно распространить на большие наборы данных.

Библия проблем машинного обучения (MLPB)

Крутой / уникальной особенностью этого репо является то, что каждая проблема помечена такими тегами, как [multi-class], [unbalanced-data], [regression] и т. Д., Что позволяет легко находить определенные типы проблем / наборов данных.

Бен
источник
6

Помимо всех этих наборов данных, если вы заинтересованы в данных, связанных с Индией. Публично официальный сайт правительства Индии

Он предоставляет наборы данных из различных департаментов правительства Индии, которые могут быть использованы для анализа больших данных и машинного обучения.

Gaurav
источник
4

Просто загружаем пакет MASS в R и получаем доступ к нескольким фреймам данных или наборам данных.

install.packages ("MASS") требуется ("MASS")

дилип балинени
источник
3

3 набора данных с https://www.jc-bingo.com/about

  • visitor-Interest.csv Агрегированные интересы посетителей, составленные на основе журналов веб-доступа за 1 неделю. Включает в себя IP-адрес посетителя, строку user-agent, страну посетителя, доступные языки страниц и темы. 19 926 записей, 2,9 Мб.
  • user-agents.csv Реальный посетитель пользовательских агентов упорядочен по популярности. 4826 записей, 716 Кб.
  • bots.csv Робот IP-адреса и строки агента пользователя, извлеченные из журналов веб-доступа. 1 293 записи, 122 Кб.
Юрий
источник
3

Очевидно, существует большой набор общедоступных баз данных.

Один из них, который еще не упомянут, от ФАО (Продовольственная и сельскохозяйственная организация Объединенных Наций), доступен по адресу:

http://www.fao.org/faostat/

Он содержит данные о производстве продуктов питания для стран мира.

setempler
источник