Я ищу существующие наборы данных, которые мы можем использовать для тестирования нескольких методов данных, которые мы исследуем.
Я знаю несколько ресурсов, подобных тем, которые включены в R (попробуйте plot(Orange)
или посмотрите здесь ).
Но я бы хотел сделать шаг вперед:
- Каковы лучшие наборы данных для тестирования инструмента визуализации?
- Какие наборы данных вы использовали в научных статьях или учебных слайдах о датависах?
- Какой лучший пример из реального мира демонстрирует преимущества графиков?
data-visualization
dataset
teaching
robermorales
источник
источник
Ответы:
В интернете доступно большое количество баз данных. В зависимости от предмета вы можете получить разные источники.
Например, в предметной области «Человеческое развитие» вы можете иметь источники данных по адресу (http://hdrstats.undp.org/):
http://hdrstats.undp.org/en/tables/default.html
Для наблюдения за изменением климата существует веб-сайт с климатическими данными высокого разрешения по адресу (http://www.ipcc-data.org/), например:
http://www.ipcc-data.org/obs/cru_ts2_1.html
Оба примера содержат реальные данные, используемые в опубликованных научных работах, с большим количеством данных. Данные, связанные со временем и / или пространством. Возможности визуализации этих данных безграничны.
источник
Мне нравится использовать наборы данных Anscombe (также доступны в R), чтобы показать важность построения графиков при выполнении регрессий. Если вы не знакомы, вы получаете одну и ту же линию регрессии и диагностику из всех четырех наборов данных, хотя сами наборы выглядят совершенно по-разному. Вы можете взять графики ниже и превратить их в остаточные графики, чтобы проиллюстрировать проблемы, которые вы можете искать в остатках после выполнения регрессии.
источник
Любой большой стол. Для примера, Google изображения "официальной таблицы переписи". Вы увидите такие вещи, как ниже .
Также посмотрите на Gelman et al. (2002) Давайте практиковать то, что проповедуем: превращение таблиц в графики. Американский статистик 56: 121-130
источник
У Уильяма С. Кливленда есть две книги, полные отличного использования графики, а данные и код для создания графиков в разделе «Визуализация данных» находятся на его веб-сайте.
источник
Возможно, вы уже знаете об этом, но вот они в любом случае:
UCI Machine Learning инструмента для репозиции у имеет множество общедоступных, реальные наборов данных.
Правительство США публикует многие из своих наборов данных на data.gov .
Если вам нужны сложные данные визуализации, я бы посоветовал взглянуть на задачу классификации. Мне кажется, что пакет слов, установленный на UCI MLR, обладает некоторыми хорошими свойствами, но я могу ошибаться (с тех пор, как я его использовал), это было давно.
источник
Вот несколько
Образцы наборов данных Sci2 Tool
http://wiki.cns.iu.edu/display/SCI2TUTORIAL/2.5+Sample+Datasets
Образцы наборов данных, которые поставляются в комплекте с Sci2 Tool.
Табличные образцы наборов данных
https://public.tableau.com/s/resources?qt-overview_resources=1#qt-overview_resources
Примерные наборы данных для начала работы с Tableau.
Удивительные общедоступные наборы данных
https://github.com/caesar0301/awesome-public-datasets/blob/master/README.rst
Этот список общедоступных источников данных собирается и приводится в блогах, ответах и ответах пользователей. Большинство наборов данных бесплатны, некоторые нет.
Эта ветка довольно старая, надеясь, что этот удар получит новый вклад!
источник
Я только что заметил множество наборов данных здесь:
http://www.inside-r.org/howto/finding-data-internet
Не знаете, в этом ли смысл?
Боюсь, я не преподаю визуализацию, поэтому не могу комментировать ваши конкретные вопросы.
источник