Я работаю над проектом, который включает 14 переменных и 345 000 наблюдений для данных о жилье (такие как год постройки, квадратные метры, проданная цена, округ проживания и т. Д.). Меня интересует попытка найти хорошие графические методы и библиотеки R, которые содержат хорошие методы построения графиков.
Я уже вижу, что в ggplot и lattice будет работать хорошо, и я думаю о создании графиков для скрипки для некоторых из моих числовых переменных.
Какие другие пакеты люди порекомендуют для отображения большого количества числовых или типографских переменных в четкой, отточенной и, что наиболее важно, краткой манере?
r
data-visualization
large-data
eda
Кристофер Аден
источник
источник
Ответы:
Лучший «график» настолько очевиден, что никто еще не упомянул: создавайте карты. Данные по жилью зависят в основном от пространственного местоположения (согласно старому взгляду на недвижимость), поэтому самое первое, что нужно сделать, - составить четкую подробную карту каждой переменной. Чтобы сделать это хорошо с одной третью миллиона баллов, на самом деле требуется промышленная ГИС, которая может ускорить процесс. После этого имеет смысл пойти дальше и составить вероятностные и блокпосты для изучения одномерных распределений, а также для построения матриц рассеяния и блуждающих схематических блокпостов и т. Д., Чтобы исследовать зависимости - но карты сразу предложат, что исследовать, как моделировать отношения данных и как разбить данные географически на осмысленные подмножества.
источник
ggplot2
(особенно если вам не нужно рисовать границы стран), had.co.nz/ggplot2/coord_map.html . В противном случаеmaps
,gmaps
лучше. Там такжеGeoXp
и интерфейс R для GRASS. Кстати, у Мондриана есть плагин для географических данных :)lattice
«slevelplot
иcontourplot
. Пакетfields
имеет некоторые приятные функции, в том числе,quiltplot
которые хороши, если ваши данные не строго в сетке. Он также имеет хорошую функцию сплайна тонких пластинTps
для сглаживания данных без сетки в сетку. Что касается специализированного программного обеспечения ГИС, GRASS почему-то никогда не имеет смысла для меня, я предпочитаю QGIS.Я бы рекомендовал взглянуть на GGobi , который также имеет интерфейс R, по крайней мере, для ознакомительных целей. Он имеет ряд графических дисплеев, особенно полезных для работы с большим количеством наблюдений и переменных и для их объединения. Возможно, вы захотите начать с просмотра некоторых видеороликов в разделе «Просмотр демонстрации» на странице « Learn GGobi» .
Обновить
Ссылки на инструменты Хэдли Уикхема для GGobi, как предложено chl в комментариях:
источник
DescribeDisplay
иclusterfly
.Я чувствую, что вы на самом деле задаете два вопроса: 1) какие типы визуализаций использовать и 2) какой пакет R может их создать.
В зависимости от того, какой тип графика использовать, их много, и это зависит от ваших потребностей (например: типы переменных - числовые, факторные, географические и т. Д., А также тип соединений, которые вы хотите отобразить):
Теперь о том, как это сделать. Одна проблема со многими точками данных - время до создания графика. ggplot2, iplots, ggobi не очень хороши для слишком большого количества точек данных (по крайней мере, из моего опыта). В этом случае вы можете сосредоточиться на базовых графических средствах R или отобрать свои данные и использовать все остальные инструменты. Или вы можете надеяться, что люди, разрабатывающие iplots extreme (или Acinonyx ), дойдут до стадии предварительного релиза.
источник
rflowcyt
и Acinonyx.rflowcyt
был объявлен устаревшим с недавними выпусками Bioconductor, теперь рекомендуется использоватьflowViz
. Во всяком случае, оба полагаются наlattice
.Mondrian предоставляет интерактивные функции и обрабатывает довольно большие наборы данных (правда, на Java).
Paraview включает в себя 2D / 3D, а именно. функции.
источник
iplots
ссылается @Tal. Что касается Paraview, у вас есть возможность сохранить скриншот вашего viz.DescribeDisplay
это способ экспорта динамической визуализации из GGobi, cran.r-project.org/web/packages/DescribeDisplay/index.html .Я хотел бы обратить ваше внимание на « Параллельные координаты: визуальная многомерная геометрия и ее приложения» , в которой содержатся последние достижения и приложения в этой области.
Книга была высоко оценена Стивеном Хокингом среди других. Поверхности описываются (используя двойственность) своими нормальными векторами в своих точках. Он содержит приложения для управления воздушным движением (автоматическое предотвращение столкновений - 3 патента США), многофакторный анализ данных (на реальных наборах данных, некоторые с сотнями переменных), многоцелевая оптимизация, управление процессом, интеллектуальные дисплеи интенсивной терапии, безопасность, визуализация сети и недавно большой Данные.
источник