Какие есть альтернативы боксу?

20

Я работаю над созданием веб-сайта, который отображает данные переписи для выбранных пользователем полигонов и хотел бы графически показать распределение различных параметров (по одному графику на параметр).

Данные обычно имеют следующие свойства:

  1. Размер выборки, как правило, большой (скажем, около 10000 точек данных)
  2. Диапазон значений имеет тенденцию быть достаточно большим (например, минимальная популяция может быть меньше 100, а максимальная может быть примерно 500 000)
  3. q1 обычно близок к минимуму (скажем, 200), в то время как q2 и q3 будут в пределах 10000
  4. Это не выглядит как нормальное распределение

Я не статистика и, следовательно, моё описание может быть не совсем ясным.

Я хотел бы показать это распределение на графике, который увидят граждане (если хотите, непрофессионал).

Я бы предпочел использовать гистограмму, но это невозможно из-за большого диапазона значений, из-за которого создание бинов не очень просто и прямолинейно.

Из того, что я мало знаю о статистике, блочный график - это то, что часто используется для отображения такого рода данных, но я чувствую, что для непрофессионала расшифровка блочного графика не легка.

Какие у меня есть варианты, чтобы показать эти данные в доступной для понимания форме?

Девдатта Тенгше
источник
что именно вы показываете? Мне не ясно, какие данные представляет ваша точка данных.
mpiktas
1
Как насчет графика плотности ядра? statmethods.net/graphs/density.html
Роман Луштрик
@mpiktas: Мои данные - данные переписи для деревень. Мой веб-сайт позволит пользователю выбрать область на карте, а затем найдет все деревни в этой области. Данные переписи для деревни состоят из различных значений, таких как: мужское население, женское население, средний доход домохозяйства и т. Д. Для этой деревни. Я надеюсь показать распределение данных по конкретному значению (например: Общая численность населения) по всем деревням, попадающим в выбранную пользователем область.
Девдатта Тенгше

Ответы:

13

Боксплот не так уж и сложен. В конце концов, вам просто нужно вычислить три квартиля и минимальное и максимальное значения, которые определяют диапазон; тонкость возникает, когда мы хотим нарисовать усы, и были предложены различные методы. Например, в коробчатом графике Тьюки значения, в 1,5 раза превышающие межквартильный от первого или третьего квартиля, будут рассматриваться как выбросы и отображаться как простые точки. См. Также « Методы представления статистической информации: полезный обзор » Кристина Поттера. Программное обеспечение R реализует немного другое правило, но исходный код доступен, если вы хотите его изучить (см. boxplot()Иboxplot.stats()функции). Тем не менее, это не очень полезно, когда интерес представляет выявление выбросов из очень искаженного распределения (но см. «Настроенный блок-график для искаженных распределений» , Hubert and Vandervieren, CSDA 2008 52 (12)).

Что касается онлайн-визуализации, я бы посоветовал взглянуть на Protovis, которая представляет собой набор инструментов js без плагинов для интерактивных веб-дисплеев. Страница примеров содержит очень мало иллюстраций того, что может быть достигнуто с ее помощью.

хл
источник
3
Я работаю в области биологических исследований. Я знаю некоторых коллег (я имею в виду людей с докторской степенью), которые не могут по-настоящему овладеть боксплотами. Я бы не использовал их для целевой аудитории.
Нико
1
@Nico Это справедливо. Но это не причина не использовать эффективное графическое резюме. Схематическая иллюстрация того, что на самом деле делает боксплот, может помочь читателю.
ЧЛ
1
это действительно зависит от целевой аудитории и цели сайта. Объяснение коробочных сюжетов определенно помогло бы, но, тем не менее, некоторые люди много борются с концепцией распределения.
Нико
@nico Да, я согласен. Хотя коробочный сюжет не упоминается в «Путешествии по зоопарку визуализации», но он предназначен для больших и сложных наборов данных, мне просто это нравится, и мне жаль видеть, что он мало используется в экспериментальных науках. Наложение необработанных данных - это способ помочь читателю визуализировать распределение.
ЧЛ
1
Я знаю! Я всегда стараюсь «конвертировать» моих коллег в боксы, по крайней мере, когда речь идет о написании статей, презентациях и т. Д., Но иногда это так!
Нико
7

Я бы посоветовал вам продолжать с гистограммами. Они гораздо более понятны, чем альтернативы. Используйте масштаб журнала, чтобы справиться с большим диапазоном значений. Вот пример, который я приготовил за пару минут в Stata: Гистограмма с логарифмической шкалой на оси значений
я признаю, что числовые метки по оси x не были прямыми или автоматическими, но, поскольку вы создаете веб-сайт, я уверен, что ваши навыки программирования соответствуют вызов!

универсальный
источник
Хорошая точка зрения. Гистограммы (или графики плотности с экспериментом с пропускной способностью) являются отличным решением.
Suncoolsu
Вы совершенно правы, что гистограмма является наиболее понятным способом показать распределение. Я постараюсь сделать гистограммы с обеими осями в логарифмическом масштабе.
Девдатта Тенгше
2
Я только предлагаю использовать логарифмическую шкалу для оси X. Я не думаю, что логарифмическая шкала для оси частот была бы хорошей идеей, так как тогда заштрихованная область каждого столбца гистограммы не была бы пропорциональна количеству наблюдений.
остановка
5

Вот функция Matlab для построения нескольких гистограмм бок о бок в 2D в качестве альтернативы блочному графику. Смотрите картинку сверху. А вот еще один

Плотность плотности является еще одной альтернативой коробочному графику. Это заштрихованная монохромная полоса, темнота которой в точке пропорциональна плотности вероятности величины в этой точке. Это реализация R полосы плотности

Джордж Донтас
источник
1
(+1) Забыл об этом. Это может быть удобно.
ЧЛ
1
Только что нашел версию PDF « Неопределенность с затенением» в формате PDF без записи .
ЧЛ
@chl: эта ссылка не работает
kjetil b halvorsen
4

Икс%Иксзнак равно0,10,20,,,,,100

mpiktas
источник
3
Цитирую моего друга: если вы хотите «спрятать» что-то в газете, поместите это в текст, а не в рисунок. Если вы хотите убедиться, что никто не читает, поместите это в таблицу! ;) Просто шучу, конечно, но есть веб-сайт с интерактивными картами для пользователей, чтобы щелкать и т. Д. Все это, чтобы получить таблицу ... ну, это было бы разочаровывающим!
Нико
@ nico, да, но иногда таблицы гораздо более информативны, чем графики. Я например предпочитаю таблицу вместо плохого графика. В этом случае таблица все еще может быть представлена ​​графиком, и я предложил квантили, потому что у них нет проблем с выбросами.
mpiktas
Именно этим я сейчас и занимаюсь (показываю децили на графике), но после того, как мы показали это некоторым из нашей целевой аудитории, мы получили обратную связь, что графики было непросто понять.
Девдатта Тенгше
2

Если вы нацелены на население в целом (то есть не на статистически подкованной аудитории), вам следует сосредоточиться на привлекательности, а не на статистической точности.

Забудьте о коробочках, не говоря уже о участках скрипки (я лично нахожу их очень трудно читать)! Если бы вы спросили обычного уличного человека, что такое квантиль, вы бы, в основном, увидели какое-то широко раскрытое зрение ...

Вы должны использовать барплоты, пузырьковые диаграммы, возможно, некоторые круговые диаграммы (брррр). Забудьте о барах ошибок (хотя я бы поместил SD в текст где-нибудь, где это применимо).

Используйте цвета, формы, толстые линии, 3D. Вы должны сделать каждую диаграмму уникальной и сразу легко понятной, даже не читая все легенды / оси и т. Д. Разумно используйте карты, раскрашивая их.

Информация прекрасна , это очень хороший ресурс для получения идей. Посмотрите на эту таблицу, например: кофеин и калории : каждый может понять это, и это приятно для глаз.

И, конечно же, взгляните на работу Эдварда Туфте.

Nico
источник
Заметьте, я не предлагал использовать для своих приложений графики для скрипки, а использовал гистограмму с логарифмически разнесенными корзинами. Сюжеты для скрипки были ответом на вопрос в заголовке (который сильно отличался от вопроса в самом посте).
Дикран Сумчатый
3
Вам, вероятно, понравится многие глаза , dataviz , datavisualization.ch и Ideas2evidence , чтобы назвать несколько.
ЧЛ
2

Мне скорее нравятся скрипичные графики , так как это дает представление о форме распределения. Однако, если проблема заключается в большом диапазоне значений, то, возможно, было бы лучше построить график данных, а не необработанные значения, что бы затем делало выбор размеров блоков для гистограмм и т. Д. Поскольку отображение предназначено для непрофессионалов, дон не упоминайте логи и отметьте оси 10, 100, 1000, 10000, 100000, 1000000 и т. д.

Дикран Сумчатый
источник