Я работал над новым методом анализа и анализа наборов данных, чтобы идентифицировать и изолировать подгруппы населения без предварительного знания характеристик какой-либо подгруппы. Хотя этот метод достаточно хорошо работает с искусственными выборками данных (то есть наборами данных, созданными специально для идентификации и разделения подмножеств населения), я хотел бы попробовать протестировать его с живыми данными.
То, что я ищу, это свободно доступный (т.е. не конфиденциальный, не проприетарный) источник данных. Предпочтительно тот, который содержит бимодальные или мультимодальные распределения или, очевидно, состоит из множества подмножеств, которые нельзя легко разделить традиционными способами. Куда мне пойти, чтобы найти такую информацию?
источник
Ответы:
Также см. Хранилище данных машинного обучения UCI.
http://archive.ics.uci.edu/ml/
источник
Следующий список содержит множество наборов данных, которые могут вас заинтересовать:
источник
См. Мой ответ на «Наборы данных для выполнения статистического анализа» со ссылкой на наборы данных в R.
источник
Всемирный банк предлагает довольно много интересных данных и в последнее время очень активно разрабатывает хороший API для них.
Кроме того, у commugrate проекта есть интересный список доступных.
Для данных, связанных со здоровьем в США, обращайтесь в Склад показателей здоровья .
Блог Дэниэла Лемира указывает на несколько интересных примеров (в основном предназначенных для исследования БД), включая канадскую перепись 1880 года и отчеты по синоптическим облакам .
И на сегодня (03/04/2012) также доступны для загрузки записи переписей США 1940 года .
источник
У Gapminder есть несколько (430 на последний взгляд) наборов данных, которые могут вам пригодиться или не быть полезными.
источник
MLComp имеет довольно много интересных наборов данных, и в качестве бонуса ваш алгоритм будет ранжироваться, если вы загрузите его.
источник
Хорошее место для поиска - Библиотека данных и истории Университета Карнеги-Меллона, или DASL , которая содержит файлы данных, "иллюстрирующие использование основных методов статистики ... Хороший пример может сделать урок по конкретному методу статистики ярким и актуальным. DASL - это разработан, чтобы помочь учителям находить и идентифицировать файлы данных для обучения. Мы надеемся, что DASL также послужит архивом для наборов данных из статистической литературы ».
источник
Запустите R и введите
data()
. Это покажет все наборы данных в пути поиска. Многие дополнительные наборы данных доступны в дополнительных пакетах. Например, вAER
пакете есть несколько интересных реальных наборов данных по общественным наукам .источник
NIST предоставляет архив справочных данных .
источник
http://www.reddit.com/r/datasets, а также http://www.reddit.com/r/opendata содержат постоянно растущий список указателей на различные наборы данных.
источник
В сети Stack Exchange появился новый сайт - « Открытые данные» (бета-версия от 5 марта 2015 г.), посвященный данным. Он описывает себя как:
«Открытые данные» относятся к наборам данных, которые «свободно доступны каждому для использования и повторной публикации по своему усмотрению, без ограничений со стороны авторского права, патентов или других механизмов контроля» ( Википедия ). Однако сайт, кажется, поддается запросам на закрытые наборы данных .
источник
Timetric предоставляет веб-интерфейс для данных и предоставляет список общедоступных наборов данных, которые они используют
источник
Добавление пары в список:
Множество подробных финансовых данных о публичных компаниях за многие десятилетия: http://www.mergent.com/servius
Богатая информация о более чем 16 миллионах предприятий в США: http://compass.webservius.com
Оба доступны через REST API и имеют бесплатные пробные планы.
источник
Вот еще один список .
источник
Это, вероятно, самый полный список, который вы найдете: Некоторые наборы данных, доступные в Интернете
источник
Питер Скоморох ведет список наборов данных по адресу http://www.datawrangling.com/some-datasets-available-on-the-web . Многие ссылки предоставлены в отношении мест, в которых перечислены наборы данных.
источник
Наборы данных из оригинальной книги
A handbook of small data sets
доступны здесь .источник
В поисках подходящего набора данных для моих нужд я только что наткнулся на два сайта, которые имеют отношение к этой дискуссии.
Datacite.org, который описывает себя как ...
DataBib.org, который описывает себя как ...
Думал, что стоит добавить его в список здесь для других.
Теперь, чтобы найти что-то в его ссылках, что соответствует моим потребностям!
источник
Я настоятельно рекомендую проверить quandl.com . Это мечта программистов данных. Он предоставляет один очень простой API для доступа к любой из более чем 10 миллионов различных областей данных. Вы ищете бимодальные или многовариантные данные, поэтому я бы посоветовал проверить различные наборы данных о населении, например, эта диаграмма мирового населения содержит страны и территории подкомпонентов, которые входят в общую сумму.
источник
источник
Использование во времени
Доступна для загрузки очень большая электронная таблица Excel, содержащая точки данных для всех онлайн-действий, с демографической статистикой пользователя, с течением времени. Пожалуйста, прочитайте лист подсказок (ниже) перед загрузкой или использованием этой таблицы.
http://pewinternet.org/Trend-Data/Usage-Over-Time.aspx
источник
http://www.ckan.net также имеет несколько наборов данных.
http://www.biotorrents.net/browse.php также начинает иметь довольно большое количество больших наборов данных.
источник
SODA POP в штате Пенсильвания;
http://sodapop.pop.psu.edu/
Простой онлайн-архив данных для изучения населения.
источник
Я собираюсь поднять старую тему, потому что я только что нашел эту мать:
http://vincentarelbundock.github.io/Rdatasets/
источник
Сингапур объявляет об инициативе «Открытые данные» . Проверьте data.gov.sg похож на data.gov в США.
источник