В моей области исследований популярным способом отображения данных является использование комбинации гистограммы с «ручками». Например,
«Ручки» чередуются между стандартными ошибками и стандартными отклонениями в зависимости от автора. Как правило, размеры выборки для каждого «бара» довольно малы - около шести.
Эти сюжеты, кажется, особенно популярны в биологических науках - см. Несколько первых статей BMC Biology, том 3 .
Так как бы вы представили эти данные?
Почему мне не нравятся эти участки
Лично мне не нравятся эти сюжеты.
- Когда размер выборки невелик, почему бы просто не отобразить отдельные точки данных.
- Это SD или SE, который отображается? Никто не согласен с тем, что использовать.
- Зачем вообще использовать бары. Данные (обычно) не идут от 0, но первый проход на графике предполагает, что это происходит.
- Графики не дают представления о диапазоне или размере выборки данных.
R скрипт
Это код R, который я использовал для создания графика. Таким образом, вы можете (если хотите) использовать те же данные.
#Generate the data
set.seed(1)
names = c("A1", "A2", "A3", "B1", "B2", "B3", "C1", "C2", "C3")
prevs = c(38, 37, 31, 31, 29, 26, 40, 32, 39)
n=6; se = numeric(length(prevs))
for(i in 1:length(prevs))
se[i] = sd(rnorm(n, prevs, 15))/n
#Basic plot
par(fin=c(6,6), pin=c(6,6), mai=c(0.8,1.0,0.0,0.125), cex.axis=0.8)
barplot(prevs,space=c(0,0,0,3,0,0, 3,0,0), names.arg=NULL, horiz=FALSE,
axes=FALSE, ylab="Percent", col=c(2,3,4), width=5, ylim=range(0,50))
#Add in the CIs
xx = c(2.5, 7.5, 12.5, 32.5, 37.5, 42.5, 62.5, 67.5, 72.5)
for (i in 1:length(prevs)) {
lines(rep(xx[i], 2), c(prevs[i], prevs[i]+se[i]))
lines(c(xx[i]+1/2, xx[i]-1/2), rep(prevs[i]+se[i], 2))
}
#Add the axis
axis(2, tick=TRUE, xaxp=c(0, 50, 5))
axis(1, at=xx+0.1, labels=names, font=1,
tck=0, tcl=0, las=1, padj=0, col=0, cex=0.1)
data-visualization
csgillespie
источник
источник
Ответы:
Спасибо за все ваши ответы. Для полноты я подумал, что мне следует включить то, что я обычно делаю. Я склонен делать комбинацию из приведенных предложений: точки, диапазоны (когда n большое) и se (или sd) диапазоны.
( Удалено модератором, поскольку сайт, на котором размещено изображение, больше не работает правильно. )
Из точечного графика видно, что данные гораздо более разбросаны, как показывают графики «панели управления». На самом деле, в A3 есть отрицательное значение!
Я сделал этот ответ CW, поэтому я не получаю репутацию
источник
Основной доклад Фрэнка Харрелла под названием «Информационная аллергия» при использовании R! В прошлом месяце были показаны альтернативы этим: вместо того, чтобы скрывать необработанные данные посредством агрегации, которую обеспечивают столбцы, необработанные данные также отображаются в виде точек (или точек). "Зачем скрывать данные?" был комментарий Фрэнка.
Учитывая смешивание альпы, это звучит как наиболее разумное предложение (и весь разговор наиболее полон хороших и важных самородков).
источник
jitter
также в простой R.С психологической точки зрения я выступаю за построение данных плюс вашу неопределенность в отношении данных. Таким образом, на графике, подобном тому, который вы демонстрируете, я бы никогда не удосужился расширить линейки до нуля, что лишь сводит к минимуму способность глаза различать различия в диапазоне данных.
Кроме того, я откровенно анти-барграф; гистограммы отображают две переменные в один и тот же эстетический атрибут (местоположение по оси X), что может вызвать путаницу. Лучший подход состоит в том, чтобы избежать избыточного эстетического сопоставления путем сопоставления одной переменной с осью x, а другой переменной - с другим эстетическим атрибутом (например, форма или цвет точки или оба).
Наконец, на графике выше вы только добавляете столбцы ошибок выше значения, что ограничивает способность сравнивать интервалы неопределенности относительно столбцов выше и ниже значения.
Вот как я могу построить данные (через пакет ggplot2). Обратите внимание, что я добавляю линии, соединяющие точки в одной серии; некоторые утверждают, что это уместно только тогда, когда ряды, между которыми соединены линии, являются числовыми (как, кажется, в этом случае), однако до тех пор, пока существует какая-либо разумная порядковая связь между уровнями переменной оси x, я думаю, соединительные линии полезны для того, чтобы помочь глазу связать точки на оси х. Это может стать особенно полезным для обнаружения взаимодействий, которые действительно выделяются линиями.
источник
geom_ribbon()
указанием ошибки. Если вам не нравится создавать очевидные оценки для областей от 1 до 2, по крайней мере, уменьшите ширину полосы ошибок.Мне интересно, почему вам не нравятся эти сюжеты. Я использую их все время. Не желая заявлять о явном расцвете, они позволяют сравнивать средние значения различных групп и видеть, перекрываются ли их 95% ДИ (т. Е. Истинное среднее значение, вероятно, будет различным).
Мне кажется, важно получить баланс простоты и информации для разных целей. Но когда я использую эти графики, я говорю: «эти две группы отличаются друг от друга в некотором важном смысле» [или нет].
Мне кажется, это здорово, но мне было бы интересно услышать контрпримеры. Я предполагаю, что при использовании графика подразумевается, что данные не имеют странного распределения, что делает среднее значение неверным или вводящим в заблуждение.
источник
Если данные являются показателями : это количество успехов, деленное на количество испытаний, то очень элегантный метод - это воронкообразный график. Например, см. Http://qshc.bmj.com/content/11/4/390.2.full (извинения, если для ссылки требуется подписка - дайте мне знать, и я найду другую).
Может быть возможно приспособить это к другим типам данных, но я не видел никаких примеров.
ОБНОВИТЬ:
Вот ссылка на пример, который не требует подписки (и имеет хорошее объяснение того, как их можно использовать): http://understandingunterminty.org/fertility
Их можно использовать для данных, не относящихся к скорости, просто отображая среднее значение против стандартной ошибки, однако они могут потерять часть своей простоты.
Статья в Википедии не очень хороша, поскольку в ней обсуждается только их использование в метаанализе. Я бы сказал, что они могут быть полезны во многих других контекстах.
источник
Я хотел бы использовать boxplots здесь; чистый, содержательный, непараметрический ... Или виоплот, если рассылка более интересная.
источник
Упрощение потрясающего кода @ csgillespie сверху:
источник
Я предпочитаю geom_pointrange панели ошибок и думаю, что линии отвлекают, а не помогают. Вот версия, которую я нахожу намного чище, чем версия @James или @csgillespie:
источник