Нахождение свободно доступных образцов данных

98

Я работал над новым методом анализа и анализа наборов данных, чтобы идентифицировать и изолировать подгруппы населения без предварительного знания характеристик какой-либо подгруппы. Хотя этот метод достаточно хорошо работает с искусственными выборками данных (то есть наборами данных, созданными специально для идентификации и разделения подмножеств населения), я хотел бы попробовать протестировать его с живыми данными.

То, что я ищу, это свободно доступный (т.е. не конфиденциальный, не проприетарный) источник данных. Предпочтительно тот, который содержит бимодальные или мультимодальные распределения или, очевидно, состоит из множества подмножеств, которые нельзя легко разделить традиционными способами. Куда мне пойти, чтобы найти такую ​​информацию?

EAMann
источник
4
Вам может понравиться getthedata.org сайт вопросов и ответов, посвященный поиску наборов данных
Jeromy Anglim

Ответы:

46

Следующий список содержит множество наборов данных, которые могут вас заинтересовать:

Мехпер С. Палавузлар
источник
17

Всемирный банк предлагает довольно много интересных данных и в последнее время очень активно разрабатывает хороший API для них.

Кроме того, у commugrate проекта есть интересный список доступных.

Для данных, связанных со здоровьем в США, обращайтесь в Склад показателей здоровья .

Блог Дэниэла Лемира указывает на несколько интересных примеров (в основном предназначенных для исследования БД), включая канадскую перепись 1880 года и отчеты по синоптическим облакам .

И на сегодня (03/04/2012) также доступны для загрузки записи переписей США 1940 года .

radek
источник
2
Всемирный банк делает еще одну милю с открытыми данными и картами для Статы и Р.
о.
13

У Gapminder есть несколько (430 на последний взгляд) наборов данных, которые могут вам пригодиться или не быть полезными.

амосс
источник
11

MLComp имеет довольно много интересных наборов данных, и в качестве бонуса ваш алгоритм будет ранжироваться, если вы загрузите его.

Jilles de остроумие
источник
10

Хорошее место для поиска - Библиотека данных и истории Университета Карнеги-Меллона, или DASL , которая содержит файлы данных, "иллюстрирующие использование основных методов статистики ... Хороший пример может сделать урок по конкретному методу статистики ярким и актуальным. DASL - это разработан, чтобы помочь учителям находить и идентифицировать файлы данных для обучения. Мы надеемся, что DASL также послужит архивом для наборов данных из статистической литературы ».

user211
источник
9

Запустите R и введите data(). Это покажет все наборы данных в пути поиска. Многие дополнительные наборы данных доступны в дополнительных пакетах. Например, в AERпакете есть несколько интересных реальных наборов данных по общественным наукам .

Джером англим
источник
5

В сети Stack Exchange появился новый сайт - « Открытые данные» (бета-версия от 5 марта 2015 г.), посвященный данным. Он описывает себя как:

Open Data Stack Exchange - сайт вопросов и ответов для разработчиков и исследователей, заинтересованных в открытых данных. Он создан и поддерживается вами как часть сети вопросов и ответов Stack Exchange. С вашей помощью мы работаем вместе, чтобы создать библиотеку подробных ответов на каждый вопрос об открытых данных.

«Открытые данные» относятся к наборам данных, которые «свободно доступны каждому для использования и повторной публикации по своему усмотрению, без ограничений со стороны авторского права, патентов или других механизмов контроля» ( Википедия ). Однако сайт, кажется, поддается запросам на закрытые наборы данных .

Гунг
источник
3

Добавление пары в список:

  • Множество подробных финансовых данных о публичных компаниях за многие десятилетия: http://www.mergent.com/servius

  • Богатая информация о более чем 16 миллионах предприятий в США: http://compass.webservius.com

Оба доступны через REST API и имеют бесплатные пробные планы.

Евгений Осовецкий
источник
2

Наборы данных из оригинальной книги A handbook of small data setsдоступны здесь .

MYaseen208
источник
2

В поисках подходящего набора данных для моих нужд я только что наткнулся на два сайта, которые имеют отношение к этой дискуссии.

Datacite.org, который описывает себя как ...

Мы являемся международной организацией, которая стремится:

  • облегчить доступ к данным исследований
  • повысить признание научных данных в качестве законного вклада в научные записи, а также
  • поддерживать архивирование данных, чтобы результаты могли быть проверены и переориентированы для дальнейшего изучения.

DataBib.org, который описывает себя как ...

Databib - это инструмент, помогающий людям определять и находить онлайн-хранилища данных исследований. Пользователи и библиографы создают и курируют записи, описывающие хранилища данных, которые пользователи могут искать.

Думал, что стоит добавить его в список здесь для других.

Теперь, чтобы найти что-то в его ссылках, что соответствует моим потребностям!

слеклайна
источник
2

Я настоятельно рекомендую проверить quandl.com . Это мечта программистов данных. Он предоставляет один очень простой API для доступа к любой из более чем 10 миллионов различных областей данных. Вы ищете бимодальные или многовариантные данные, поэтому я бы посоветовал проверить различные наборы данных о населении, например, эта диаграмма мирового населения содержит страны и территории подкомпонентов, которые входят в общую сумму.

Брайан Риск
источник
1
Некоторые данные quandl бесплатны, некоторые «Премиум», т.е. стоят $$. Кроме того, моя мечта об API включает в себя временные ряды, ноли и сетевые сюжеты (я хочу пони).
Денис
1

Использование во времени

Доступна для загрузки очень большая электронная таблица Excel, содержащая точки данных для всех онлайн-действий, с демографической статистикой пользователя, с течением времени. Пожалуйста, прочитайте лист подсказок (ниже) перед загрузкой или использованием этой таблицы.

http://pewinternet.org/Trend-Data/Usage-Over-Time.aspx

Таль Галили
источник
1

SODA POP в штате Пенсильвания;

http://sodapop.pop.psu.edu/

Простой онлайн-архив данных для изучения населения.

СтатистикаДок Консалтинг
источник