Я работаю над созданием веб-сайта, который отображает данные переписи для выбранных пользователем полигонов и хотел бы графически показать распределение различных параметров (по одному графику на параметр).
Данные обычно имеют следующие свойства:
- Размер выборки, как правило, большой (скажем, около 10000 точек данных)
- Диапазон значений имеет тенденцию быть достаточно большим (например, минимальная популяция может быть меньше 100, а максимальная может быть примерно 500 000)
- q1 обычно близок к минимуму (скажем, 200), в то время как q2 и q3 будут в пределах 10000
- Это не выглядит как нормальное распределение
Я не статистика и, следовательно, моё описание может быть не совсем ясным.
Я хотел бы показать это распределение на графике, который увидят граждане (если хотите, непрофессионал).
Я бы предпочел использовать гистограмму, но это невозможно из-за большого диапазона значений, из-за которого создание бинов не очень просто и прямолинейно.
Из того, что я мало знаю о статистике, блочный график - это то, что часто используется для отображения такого рода данных, но я чувствую, что для непрофессионала расшифровка блочного графика не легка.
Какие у меня есть варианты, чтобы показать эти данные в доступной для понимания форме?
источник
Ответы:
Боксплот не так уж и сложен. В конце концов, вам просто нужно вычислить три квартиля и минимальное и максимальное значения, которые определяют диапазон; тонкость возникает, когда мы хотим нарисовать усы, и были предложены различные методы. Например, в коробчатом графике Тьюки значения, в 1,5 раза превышающие межквартильный от первого или третьего квартиля, будут рассматриваться как выбросы и отображаться как простые точки. См. Также « Методы представления статистической информации: полезный обзор » Кристина Поттера. Программное обеспечение R реализует немного другое правило, но исходный код доступен, если вы хотите его изучить (см.
boxplot()
Иboxplot.stats()
функции). Тем не менее, это не очень полезно, когда интерес представляет выявление выбросов из очень искаженного распределения (но см. «Настроенный блок-график для искаженных распределений» , Hubert and Vandervieren, CSDA 2008 52 (12)).Что касается онлайн-визуализации, я бы посоветовал взглянуть на Protovis, которая представляет собой набор инструментов js без плагинов для интерактивных веб-дисплеев. Страница примеров содержит очень мало иллюстраций того, что может быть достигнуто с ее помощью.
источник
Вы также можете посмотреть на beanplots .
[ Источник ]
Реализовано в пакете R Питером Кампстрой.
источник
Я бы посоветовал вам продолжать с гистограммами. Они гораздо более понятны, чем альтернативы. Используйте масштаб журнала, чтобы справиться с большим диапазоном значений. Вот пример, который я приготовил за пару минут в Stata:
я признаю, что числовые метки по оси x не были прямыми или автоматическими, но, поскольку вы создаете веб-сайт, я уверен, что ваши навыки программирования соответствуют вызов!
источник
Вот функция Matlab для построения нескольких гистограмм бок о бок в 2D в качестве альтернативы блочному графику. Смотрите картинку сверху. А вот еще один
Плотность плотности является еще одной альтернативой коробочному графику. Это заштрихованная монохромная полоса, темнота которой в точке пропорциональна плотности вероятности величины в этой точке. Это реализация R полосы плотности
источник
источник
Если вы нацелены на население в целом (то есть не на статистически подкованной аудитории), вам следует сосредоточиться на привлекательности, а не на статистической точности.
Забудьте о коробочках, не говоря уже о участках скрипки (я лично нахожу их очень трудно читать)! Если бы вы спросили обычного уличного человека, что такое квантиль, вы бы, в основном, увидели какое-то широко раскрытое зрение ...
Вы должны использовать барплоты, пузырьковые диаграммы, возможно, некоторые круговые диаграммы (брррр). Забудьте о барах ошибок (хотя я бы поместил SD в текст где-нибудь, где это применимо).
Используйте цвета, формы, толстые линии, 3D. Вы должны сделать каждую диаграмму уникальной и сразу легко понятной, даже не читая все легенды / оси и т. Д. Разумно используйте карты, раскрашивая их.
Информация прекрасна , это очень хороший ресурс для получения идей. Посмотрите на эту таблицу, например: кофеин и калории : каждый может понять это, и это приятно для глаз.
И, конечно же, взгляните на работу Эдварда Туфте.
источник
Мне скорее нравятся скрипичные графики , так как это дает представление о форме распределения. Однако, если проблема заключается в большом диапазоне значений, то, возможно, было бы лучше построить график данных, а не необработанные значения, что бы затем делало выбор размеров блоков для гистограмм и т. Д. Поскольку отображение предназначено для непрофессионалов, дон не упоминайте логи и отметьте оси 10, 100, 1000, 10000, 100000, 1000000 и т. д.
источник