Я пишу свою кандидатскую диссертацию, и я понял, что чрезмерно полагаюсь на коробочные графики, чтобы сравнивать распределения. Какие еще альтернативы вам нравятся для решения этой задачи?
Я также хотел бы спросить, знаете ли вы какой-либо другой ресурс, как галерею R, в котором я могу вдохновить себя различными идеями по визуализации данных.
r
distributions
data-visualization
boxplot
relative-distribution
pedrosaurio
источник
источник
hist
; сглаженные плотности,density
; QQ-графикиqqplot
; стволовые и листовые участки (немного древние)stem
. Кроме того, тест Колмогорова-Смирнова может быть хорошим дополнениемks.test
.Ответы:
Я собираюсь разработать свой комментарий, как предложено @gung. Я также включу сюжет для скрипки, предложенный @Alexander, для полноты картины. Некоторые из этих инструментов можно использовать для сравнения более двух образцов.
Надеюсь, это поможет.
источник
Изучив немного больше ваших предложений, я обнаружил, что этот вид сюжета дополняет ответ @Procastinator. Он называется «пчелиный рой» и представляет собой смесь прямоугольника с изображением скрипки с тем же уровнем детализации, что и точечная диаграмма.
Beeswarm R пакет
источник
beanplot
.Заметка:
Вы хотите отвечать на вопросы о своих данных, а не создавать вопросы о самом методе визуализации. Часто скучно лучше. Это облегчает понимание сравнений.
Ответ:
Необходимость простого форматирования помимо базового пакета R, вероятно, объясняет популярность пакета ggplot Хэдли в R.
Наконец, я обнаружил, что добавление простого фона помогает. Вот почему я написал "bgfun", который может вызываться panel.first
источник
alpha=0.5
к первому графику (кgeom_density()
), чтобы перекрывающиеся части не были скрыты.Вот хороший урок из блога Flowing Data Натана Яу с использованием данных о преступности на уровне штатов и США. Это показывает:
В последнее время я обнаруживаю, что готовлю CDF гораздо больше, чем гистограммы.
источник
Специально для сравнения распределений существует концепция, которая должна быть лучше известна: относительное распределение.
Давайте посмотрим на пример. На веб-сайте http://www.math.hope.edu/swanson/data/cellphone.txt приведены данные о продолжительности последнего телефонного звонка студентов мужского и женского пола. Позвольте нам выразить распределение продолжительности телефонного звонка для студентов мужского пола, с учащимся женщиной.
Мы также можем сделать тот же график с точечными доверительными интервалами вокруг кривой относительной плотности:
Широкие доверительные полосы в этом случае отражают малый размер выборки.
Есть книга об этом методе: Handcock
Код R для участка находится здесь:
Для последнего сюжета измените на:
Обратите внимание, что графики создаются с использованием оценки плотности ядра со степенью гладкости, выбранной с помощью gcv (обобщенная перекрестная проверка).
источник
Мне нравится просто оценить плотности и построить их,
источник