Одной из распространенных проблем в науке о данных является сбор данных из различных источников в несколько очищенном (полуструктурированном) формате и объединение метрик из различных источников для проведения анализа более высокого уровня. Глядя на усилия других людей, особенно другие вопросы на этом сайте, кажется, что многие люди в этой области делают несколько повторяющуюся работу. Например, анализ твитов, постов в Facebook, статей в Википедии и т. Д. Является частью большой проблемы с большими данными.
Некоторые из этих наборов данных доступны с помощью общедоступных API, предоставляемых сайтом провайдера, но обычно в этих API отсутствует какая-либо ценная информация или показатели, и каждый должен делать один и тот же анализ снова и снова. Например, хотя кластеризация пользователей может зависеть от разных вариантов использования и выбора функций, но наличие базовой кластеризации пользователей Twitter / Facebook может быть полезным во многих приложениях больших данных, которые не предоставляются API и не доступны публично в независимых наборах данных. ,
Существует ли какой-либо индекс или общедоступный сайт размещения наборов данных, содержащий ценные наборы данных, которые можно повторно использовать для решения других проблем с большими данными? Я имею в виду что-то вроде GitHub (или группу сайтов / общедоступных наборов данных или хотя бы полный список) для науки о данных. Если нет, то каковы причины отсутствия такой платформы для науки о данных? Коммерческая ценность данных, необходимо часто обновлять наборы данных, ...? Разве у нас не может быть модели с открытым исходным кодом для обмена наборами данных, разработанной для ученых данных?
источник
Ответы:
На самом деле существует очень разумный список общедоступных наборов данных, поддерживаемых различными предприятиями / источниками.
Некоторые из них ниже:
Теперь два соображения по вашему вопросу. Первый, касающийся политики совместного использования баз данных. Исходя из личного опыта, есть некоторые базы данных, которые нельзя сделать общедоступными ни для вовлечения ограничений конфиденциальности (как для некоторой информации в социальных сетях), ни для правительственной информации (такой как базы данных системы здравоохранения).
Другой момент касается использования / применения набора данных. Хотя некоторые базы могут быть переработаны в соответствии с потребностями приложения, было бы замечательно иметь хорошую организацию наборов данных по назначению. Систематика должна включать в себя анализ социальных графов, НИКАКИЕ гарантии добычи, классификацию, а также множество других областей исследования может быть.
источник
Обновить:
Kaggle.com , дом современных энтузиастов науки о данных и машинного обучения :), открыл собственный репозиторий наборов данных .
Помимо перечисленных источников.
Некоторые наборы данных социальных сетей:
Есть много источников, перечисленных в Stats SE:
источник
Существует множество открыто доступных наборов данных, один из которых часто упускают из виду - data.gov . Как упоминалось ранее, Freebase великолепен, как и все примеры, опубликованные @Rubens.
источник
Freebase - это бесплатная база данных, управляемая сообществом, которая охватывает множество интересных тем и содержит около 2,5 миллиардов фактов в машиночитаемом формате. Он также имеет хороший API для выполнения запросов данных.
Вот еще один скомпилированный список открытых наборов данных: http://www.datapure.co/open-data-sets
источник
Следующие ссылки доступны
Общедоступные наборы данных
Google Public Data Sets
Amazon Web Services
Поиск данных в интернете
источник
В частности, для данных временных рядов Quandl является отличным ресурсом - легко просматриваемым каталогом (в основном) чистых временных рядов.
Одна из их самых крутых возможностей - это цены на акции с открытыми данными, то есть финансовые данные, которые можно редактировать в стиле вики и не обременены лицензированием.
источник
Enigma - это хранилище общедоступных наборов данных. Его бесплатный план предлагает общедоступный поиск данных с 10 000 вызовов API в месяц. Не все общедоступные базы данных перечислены, но список достаточно для общих случаев.
Я использовал его для академических исследований, и это сэкономило мне много времени.
Другим интересным источником данных является проект @unitedstates , содержащий данные и инструменты для их сбора, о Соединенных Штатах (члены Конгресса, географические формы…).
источник
Я хотел бы указать на перепись открытых данных . Это инициатива Фонда Открытых Знаний, основанная на вкладах сторонников открытых данных и экспертов со всего мира.
Ценность открытой переписи данных - это открытые, ориентированные на сообщество и систематические усилия по сбору и обновлению базы данных открытых наборов данных по всему миру по стране и, в некоторых случаях, например, по США, на уровне города .
Кроме того, он дает возможность сравнить различные страны и города в выбранных областях интересов.
источник
Существует также другой ресурс, предоставленный The Guardian, British Daily на их сайте. Все наборы данных, публикуемые журналом Guardian Datablog, размещаются. Наборы данных, связанные со счетами футбольных клубов Премьер-лиги, сведения об инфляции и ВВП Великобритании, данные о наградах Грэмми и т. Д. Наборы данных доступны по адресу
Еще немного ресурсов. Некоторые наборы данных представлены в формате R, или существуют R-запятые для прямого импорта данных в R.
источник
Пользовательский поиск Google
Вы можете использовать пользовательский поиск Google для наборов данных:
Пользовательский поиск Google: наборы данных
Он включает в себя 230 источников и метаисточников наборов данных, включая все упомянутые в этом вопросе. Пожалуйста, не стесняйтесь исключать .gov и любые другие веб-сайты из результатов, добавив "-.gov" или "-site.com" в строку поиска. Другие операторы поиска Google работают.
Не стесняйтесь обращаться ко мне, если у вас есть идеи, какие сайты добавить.
IOGDS
Следующая служба классифицирует более 1 000 000 общедоступных наборов данных:
IOGDS: Международный поиск данных по открытому правительству
источник
Поздний ответ, но вот эклектичный список из 100+ интересных наборов данных
Сообщение в блоге весело и легко читается (у меня нет принадлежности). Стоит пролистать и почистить несколько сверху:
Последние слова каждого заключенного из Техаса, казненные с 1984 года
10000 аннотированных изображений кошек
2,2 миллиона шахматных матчей
источник
Я нашел эту ссылку в Data Science Central со списком бесплатных наборов данных: большие наборы данных доступны бесплатно
источник
Знаете ли вы о тестах PUMA и загрузках наборов данных? https://sites.google.com/site/farazahmad/pumadatasets
Это включает в себя следующее:
источник
Правительство Великобритании предоставляет отличный источник неличных данных, собираемых в государственных ведомствах: http://data.gov.uk
источник
Я новичок в этом форуме. Звонил в конце по этому вопросу. Я веду (я являюсь соучредителем) каталог общедоступных порталов данных. В настоящее время в списке насчитывается более 1000 порталов на международном, федеральном, штатном, муниципальном и академическом уровнях по всему миру.
http://www.opengeocode.org/opendata/
источник
Я удивлен, что никто не упомянул об этом, поскольку это кажется довольно очевидным: http://www.kaggle.com постоянно имеет новые и очень интересные наборы данных. Информация считается активом, поэтому компании часто не хотят публиковать эти данные (а также вопросы конфиденциальности). Kaggle дает вам данные, и они надеются, что вы взамен решите с ними проблемы бизнеса.
источник
Наборы данных
Наборы данных из удивительной информации
источник
Как вы упомянули, API - это сложная часть, а не данные. Похоже, что Quandl решает эту проблему, предоставляя более 10 миллионов общедоступных наборов данных в рамках одного простого RESTful API. Если программирование вам не по силам, есть бесплатный инструмент, позволяющий легко загружать данные в Excel. Кроме того, если вы делаете наслаждаться программирования, есть несколько нативные библиотеки R, Python, Java и многое другое .
источник
Чтобы добавить в возможно бесконечный список:
как упоминается Cyndd, есть Wikidata ,
и для кураторских структурированных знаний, Wolfram Alpha .
источник
Я наткнулся на эту коллекцию на Github. Коллекция также классифицирована.
https://github.com/caesar0301/awesome-public-datasets
И для части относительно
Вы можете обратиться к руководству группы Leek для обмена данными.
источник
Не все правительственные данные указаны на Data.gov - Фонд Sunlight собрать набор таблиц обратно в феврале описания множества имеющихся данных.
источник
Еще один источник данных, который я не увидел в списке, - это проект GDELT . С сайта:
источник
Этот subreddit перечисляет много известных наборов данных
Reddit Datasets
В этом субреддите есть много запросов к наборам данных, на некоторые из которых дан ответ.
источник
Я создал репозиторий GitHub для этого. Наборы данных невелики, но представляют собой минимальные примеры, предназначенные для практики и изучения методов прогнозного моделирования, которые затем можно распространить на большие наборы данных.
Библия проблем машинного обучения (MLPB)
Крутой / уникальной особенностью этого репо является то, что каждая проблема помечена такими тегами, как [multi-class], [unbalanced-data], [regression] и т. Д., Что позволяет легко находить определенные типы проблем / наборов данных.
источник
Евростаты http://ec.europa.eu/eurostat и Европейский центральный банк https://www.ecb.europa.eu/stats/html/index.en.html предоставляют большое разнообразие наборов данных, которые я часто использую в своих рабочие проекты.
источник
Помимо всех этих наборов данных, если вы заинтересованы в данных, связанных с Индией. Публично официальный сайт правительства Индии
Он предоставляет наборы данных из различных департаментов правительства Индии, которые могут быть использованы для анализа больших данных и машинного обучения.
источник
Yahoo только что выпустила огромный набор данных для исследовательского сообщества. Наслаждайся этим!
источник
Просто загружаем пакет MASS в R и получаем доступ к нескольким фреймам данных или наборам данных.
install.packages ("MASS") требуется ("MASS")
источник
3 набора данных с https://www.jc-bingo.com/about
источник
Очевидно, существует большой набор общедоступных баз данных.
Один из них, который еще не упомянут, от ФАО (Продовольственная и сельскохозяйственная организация Объединенных Наций), доступен по адресу:
http://www.fao.org/faostat/
Он содержит данные о производстве продуктов питания для стран мира.
источник