Допустим, у меня есть два распределения, которые я хочу сравнить в деталях, то есть таким образом, чтобы форма, масштаб и сдвиг были легко видны. Хороший способ сделать это - построить гистограмму для каждого распределения, поместить их в один и тот же масштаб Х и сложить одну под другой.
При этом, как биннинг должен быть сделан? Должны ли обе гистограммы использовать одни и те же границы бинов, даже если одно распределение намного более рассредоточено, чем другое, как на рисунке 1 ниже? Следует ли выполнять бининг независимо для каждой гистограммы перед масштабированием, как показано на рисунке 2 ниже? Есть ли даже хорошее эмпирическое правило по этому вопросу?
data-visualization
histogram
pdf
binning
dsimcha
источник
источник
Ответы:
Я думаю, что вы должны использовать те же корзины. В противном случае ум обманет вас. Нормальный (0,2) выглядит более рассеянным относительно нормального (0,1) на изображении № 2, чем на изображении № 1. Ничего общего со статистикой. Похоже, что Нормальный (0,1) пошел на «диету».
Ральф Винтерс
Средние точки и конечные точки гистограммы также могут изменять восприятие дисперсии. Обратите внимание, что в этом апплете максимальный выбор бина подразумевает диапазон> 1,5 - ~ 5, в то время как минимальный выбор бина подразумевает диапазон <1 -> 5,5
http://www.stat.sc.edu/~west/javahtml/Histogram.html
источник
Другой подход заключается
alpha
в том,ggplot2
чтобы отобразить различные распределения на одном и том же графике и использовать что-то вроде параметра для решения проблем переполнения. Полезность этого метода будет зависеть от различий или сходств в вашем дистрибутиве, поскольку они будут отображаться с одинаковыми ячейками. Другой альтернативой может быть отображение сглаженных кривых плотности для каждого распределения. Вот пример этих параметров и других параметров, обсуждаемых в теме:источник
Таким образом, это вопрос поддержания одинакового размера бинов или поддержания одинакового количества бинов? Я вижу аргументы для обеих сторон. Обходной путь должен был бы сначала стандартизировать значения. Тогда вы могли бы поддерживать оба.
источник