Наборы данных для примеров визуализации данных, обучения и исследований

9

Я ищу существующие наборы данных, которые мы можем использовать для тестирования нескольких методов данных, которые мы исследуем.

Я знаю несколько ресурсов, подобных тем, которые включены в R (попробуйте plot(Orange)или посмотрите здесь ).

Но я бы хотел сделать шаг вперед:

  • Каковы лучшие наборы данных для тестирования инструмента визуализации?
  • Какие наборы данных вы использовали в научных статьях или учебных слайдах о датависах?
  • Какой лучший пример из реального мира демонстрирует преимущества графиков?
robermorales
источник
2
Много хороших примеров из реальной жизни, с некоторыми из связанных проектов, предоставляющих наборы данных (но, к сожалению, большинство из них не предоставляют): infosthetics.com
WSkid
1
Вы явно ищете бесплатные наборы данных?
Fomite
3
Визуализация зависит от контекста и аудитории (среди прочего), предполагая, что «лучший» в этом контексте неоднозначен. Вы можете получить более сфокусированные, уместные ответы, указав, какие «методы» вы исследуете.
whuber
1
@whuber Techniques, об автоматизации визуализации. Лучше всего, для объяснения. Лучше всего, для сравнения.
Роберморалес
@EpiGrad Да, максимально бесплатно.
Роберморалес

Ответы:

5

В интернете доступно большое количество баз данных. В зависимости от предмета вы можете получить разные источники.

Например, в предметной области «Человеческое развитие» вы можете иметь источники данных по адресу (http://hdrstats.undp.org/):

http://hdrstats.undp.org/en/tables/default.html

Для наблюдения за изменением климата существует веб-сайт с климатическими данными высокого разрешения по адресу (http://www.ipcc-data.org/), например:

http://www.ipcc-data.org/obs/cru_ts2_1.html

Оба примера содержат реальные данные, используемые в опубликованных научных работах, с большим количеством данных. Данные, связанные со временем и / или пространством. Возможности визуализации этих данных безграничны.

Хосе Зубкофф
источник
Какой из возможных наборов данных из этих великолепных источников вам нравится больше всего? спасибо
Роберморалес
1
Это зависит от пригодности для «вкуса» визуализации. Например, чтобы исследовать / показать временные ряды, сеть МГЭИК имеет достаточно данных и широко используется (очевидно, для анализа изменения климата), чтобы показать пространственные данные, веб-сайт человеческого развития содержит много связанных с космосом данных, а также данных, связанных с время.
Хосе Зубкофф
Ваша первая ссылка не работает (ошибка DNS).
horaceT
К сожалению, первая ссылка не работает (5 лет спустя), но есть много открытых данных: kaggle.com/datasets data.okfn.org/data data.gov data.europa.eu/euodp/en/data
Jose Зубкофф
9

Мне нравится использовать наборы данных Anscombe (также доступны в R), чтобы показать важность построения графиков при выполнении регрессий. Если вы не знакомы, вы получаете одну и ту же линию регрессии и диагностику из всех четырех наборов данных, хотя сами наборы выглядят совершенно по-разному. Вы можете взять графики ниже и превратить их в остаточные графики, чтобы проиллюстрировать проблемы, которые вы можете искать в остатках после выполнения регрессии.

Анскомб наборы данных

Чарли
источник
Да, мы знали, что наборы данных. Это хорошая отправная точка.
Роберморалес
Основная проблема заключается в том, что это не набор данных реального мира.
Роберморалес
3
@robermorales, Достаточно справедливо, но я думаю, что, увидев «чистую» версию проблемы, легче понять более сложные, реальные визуализации / проблемы.
Чарли
6

Какой лучший пример из реального мира, чтобы показать преимущества графиков?

Любой большой стол. Для примера, Google изображения "официальной таблицы переписи". Вы увидите такие вещи, как ниже .

Также посмотрите на Gelman et al. (2002) Давайте практиковать то, что проповедуем: превращение таблиц в графики. Американский статистик 56: 121-130

огромный сложный стол

Карл
источник
хороший совет! Мы не знаем реф.
Роберморалес
4

У Уильяма С. Кливленда есть две книги, полные отличного использования графики, а данные и код для создания графиков в разделе «Визуализация данных» находятся на его веб-сайте.

Питер Флом
источник
Какой из наборов данных Кливленда вам нравится больше? спасибо
Роберморалес
1
@robertomorales Я думаю, что они все выбраны для своих целей. Любой, кто интересуется статистической графикой, должен внимательно изучить Кливленд.
Питер Флом
1
Данные для визуализации данных можно найти по адресу lib.stat.cmu.edu/datasets/visualizing.data.zip. Я больше не могу их найти на собственном веб-сайте Cleveland.
Ник Кокс
4

Возможно, вы уже знаете об этом, но вот они в любом случае:

UCI Machine Learning инструмента для репозиции у имеет множество общедоступных, реальные наборов данных.

Правительство США публикует многие из своих наборов данных на data.gov .

Если вам нужны сложные данные визуализации, я бы посоветовал взглянуть на задачу классификации. Мне кажется, что пакет слов, установленный на UCI MLR, обладает некоторыми хорошими свойствами, но я могу ошибаться (с тех пор, как я его использовал), это было давно.

Джон Дусетт
источник
Спасибо! Их много !
Роберморалес
3

Вот несколько

Образцы наборов данных Sci2 Tool
http://wiki.cns.iu.edu/display/SCI2TUTORIAL/2.5+Sample+Datasets
Образцы наборов данных, которые поставляются в комплекте с Sci2 Tool.

Табличные образцы наборов данных
https://public.tableau.com/s/resources?qt-overview_resources=1#qt-overview_resources
Примерные наборы данных для начала работы с Tableau.

Удивительные общедоступные наборы данных
https://github.com/caesar0301/awesome-public-datasets/blob/master/README.rst
Этот список общедоступных источников данных собирается и приводится в блогах, ответах и ​​ответах пользователей. Большинство наборов данных бесплатны, некоторые нет.

Эта ветка довольно старая, надеясь, что этот удар получит новый вклад!

Майк Натт
источник
2

Я только что заметил множество наборов данных здесь:

http://www.inside-r.org/howto/finding-data-internet

Не знаете, в этом ли смысл?

Боюсь, я не преподаю визуализацию, поэтому не могу комментировать ваши конкретные вопросы.

Крис Били
источник