Уместно ли отобразить среднее значение в гистограмме?

13

Можно ли добавить вертикальную линию к гистограмме для визуализации среднего значения?

Мне кажется, это нормально, но я никогда не видел этого в учебниках и тому подобном, поэтому мне интересно, есть ли какое-то соглашение не делать этого?

График предназначен для курсовой работы, я просто хочу убедиться, что случайно не нарушил какое-то очень важное правило невысказанной статистики. :)

гость
источник
Почему нет. Просто чтобы добавить комментарий. Среднее значение представляет собой итоговое значение, как и гистограмма. Вы можете варьировать уровень предоставляемой информации, например, варьируя размер сегмента гистограммы. Однако обычно гистограмма дает больше информации, чем просто среднее значение. Вы можете приблизить среднее значение по гистограмме. Я думаю, именно поэтому они обычно не предоставляются вместе.
Симона
Иногда можно увидеть гистограммы с наложенным распределением (например, чаще всего по моему опыту, нормальное распределение строится с использованием среднего значения выборки и стандартного отклонения.), Которое делает то же самое (и немного больше), что и рисование вертикальной линии (указывая, где образец среднее значение с пиком кривой.)
Джеймс Стэнли

Ответы:

30

Конечно, почему нет?

гистограмма со средним

Вот пример (один из десятков, которые я нашел с помощью простого поиска Google):

гист со средним и срединным

(Источник изображения - это блог по измерению юзабилити, здесь .)

Я видел, значит, означает плюс или минус стандартное отклонение, различные квантили (например, медиана, квартили, 10-й и 90-й процентили) все отображаются по-разному.

Вместо того, чтобы рисовать линию прямо на графике, вы можете пометить информацию вдоль ее нижней части - например, так:

гистограмма с маргинальным блокпостом

Там пример (один из многих можно найти) с boxplot через вершину , а не на дне, здесь .

Иногда люди отмечают в данных:

гистограмма с графиком джиттера
(Я слегка встряхнул расположение данных, потому что значения были округлены до целых чисел, и вы не могли хорошо видеть относительную плотность.)

На этой странице есть пример такого рода, сделанный в Stata (см. Третий здесь )

Гистограммы лучше с небольшим количеством дополнительной информации - они могут вводить в заблуждение самостоятельно

Вам просто нужно позаботиться, чтобы объяснить, из чего состоит ваш сюжет! (Для начала вы бы хотели получить заголовок и метку оси X лучше, чем я использовал здесь. Плюс объяснение в подписи к рисунку, объясняющее, что вы на нем отметили.)

-

Последний сюжет:

гистограмма с полоской

-

Мои графики генерируются в R.

Редактировать:

Как и предполагал @gung, abline(v=mean...он использовался для рисования средней линии на графике и rugиспользовался для рисования значений данных (хотя на самом деле я использовал, rug(jitter(...потому что данные были округлены до целых чисел).

Вот способ сделать блокпост между гистограммой и осью:

hist(Davis2[,2],n=30)
boxplot(Davis2[,2],
  add=TRUE,horizontal=TRUE,at=-0.75,border="darkred",boxwex=1.5,outline=FALSE)

Я не собираюсь перечислять, для чего все это нужно, но вы можете проверить аргументы в справке ( ?boxplot), чтобы выяснить, для чего они нужны, и поиграть с ними самостоятельно.

Однако это не общее решение - я не гарантирую, что оно всегда будет работать так же, как и здесь (обратите внимание, что я уже изменил параметры atи boxwex*). Если вы не пишете интеллектуальную функцию, чтобы позаботиться обо всем, необходимо обратить внимание на то, что все делает, чтобы убедиться, что он делает то, что вы хотите.

Вот как создать данные, которые я использовал (я пытался показать, как регрессия Тейла действительно могла справиться с несколькими влиятельными выбросами). Это просто были данные, с которыми я играл, когда впервые ответил на этот вопрос.

 library("car")
 add <- data.frame(sex=c("F","F"),
       weight=c(150,130),height=c(NA,NA),repwt=c(55,50),repht=c(NA,NA))
 Davis2 <- rbind(Davis,add)

* - соответствующее значение atпримерно в 0,5 раза больше boxwex; это было бы хорошим значением по умолчанию, если вы напишите функцию для этого; boxwexнеобходимо будет масштабировать таким образом, чтобы это соответствовало шкале y (высоте) коробчатого графика; Я бы посоветовал от 0,04 до 0,05 раз, верхний предел у часто может быть в порядке.

Код для маргинальной полосы:

 hist(Davis2[,2],n=30)
 stripchart(jitter(Davis2[,2],amount=.5),
       method="jitter",jitter=.5,pch=16,cex=.05,add=TRUE,at=-.75,col='purple3')
Glen_b - Восстановить Монику
источник
+1, это хорошо; хотите добавить код? abline(v=mean(Davis2[,2]))И rug(Davis2[,2])я бы догадался, но как ты втиснул там поле?
gung - Восстановить Монику
1
@gung См. редактирование для кратких деталей, включая воспроизводимый пример, похожий на тот, что с коробочным сюжетом. Это действительно не делает ничего более умного, чем использование нескольких аргументов boxplotфункции. Между, boxplotи boxpвы можете сделать некоторые довольно изящные вещи без особых усилий.
Glen_b
Мудрость на века: «Если вы не пишете интеллектуальную функцию, чтобы позаботиться обо всем, необходимо обратить внимание на то, что все делает, чтобы убедиться, что он делает то, что вы хотите» ;-).
gung - Восстановить Монику
Ага. Я даже подумывал написать что-то умное для установки atи boxwexтак далее ... но в лучшем случае я делаю только несколько таких графиков в год, и каждый раз требуется несколько секунд, чтобы набрать? Boxplot и установить правильные параметры. Я подумал, что проще просто обратить внимание на то, что я делаю.
Glen_b
@gung Я отредактировал, чтобы дать код для создания данных Davis2, которые я использовал. Надеюсь, это поможет.
Glen_b
3

Конечно вы можете. Просто не забудьте четко обозначить / указать, что означает эта линия, и не делайте сюжет слишком «занятым».

Нет ничего хуже, чем график, который передает слишком много информации, чтобы ее было легко понять. Таблица часто упускается из виду для отображения сводной статистики в ясном и лаконичном виде.

TLJ
источник
2

Предыдущие ответы дают отличные оценки, но здесь следует добавить один фундаментальный момент.

Среднее значение - это центр тяжести распределения и, следовательно, опорная точка гистограммы. Это где распределение будет сбалансировано. Таким образом, существует взаимная связь: не только среднее может помочь вам думать о гистограмме, но и гистограмма может помочь вам подумать о среднем. Это даже, возможно, более полезно, когда распределение искажено, а среднее значение распределения не обязательно находится в середине.

Ник Кокс
источник