Я из области экономики и обычно в дисциплине сводная статистика переменных представлена в таблице. Тем не менее, я хочу построить их.
Я мог бы изменить коробчатый график так, чтобы он отображал среднее, стандартное отклонение, минимум и максимум, но я не хочу этого делать, поскольку прямоугольные диаграммы традиционно используются для отображения медиан, а также Q1 и Q3.
Все мои переменные имеют разные масштабы. Было бы замечательно, если бы кто-то мог предложить осмысленный способ, с помощью которого я мог бы построить эту сводную статистику. Я могу работать с R или Stata.
r
data-visualization
boxplot
Ridhima
источник
источник
R
командах, то этот вопрос здесь не по теме. Но, кажется, вы спрашиваете в первую очередь о том, как будет выглядеть хороший сюжет, а во-вторых, о том, как его создать. Если это так, я предлагаю удалить «с R» из вашего заголовка и, возможно, указать в теле, что у вас есть вR
наличии.Ответы:
Существует причина, по которой блок-график Тьюки универсален, его можно применять к данным, полученным из разных распределений, от гауссовского до пуассоновского и т. Д. Медиана, MAD (медианное абсолютное отклонение) или IQR (межквартильный диапазон) являются более надежными показателями, когда данные отклоняются от нормальность. Тем не менее, среднее значение и SD являются более склонными к выбросам, и их следует интерпретировать относительно основного распределения. Приведенное ниже решение больше подходит для нормальных или логарифмических данных. Вы можете просмотреть выбор надежных мер здесь и изучить пакет WRS R здесь .
Кроме того, добавив
+ geom_jitter()
или+ geom_point()
к коду выше, вы можете одновременно визуализировать значения необработанных данных.Спасибо @Roland за указание на сюжет скрипки . Он имеет преимущество в визуализации плотности вероятности одновременно с итоговой статистикой:
Оба примера показаны ниже.
источник
Есть множество возможностей.
Один из вариантов, который я видел, который позволяет избежать путаницы с коробочными диаграммами (при условии, что у вас есть медианы или исходные данные), состоит в том, чтобы построить коробочную диаграмму и добавить символ, обозначающий среднее (надеюсь, с легендой, чтобы сделать это явным). Упоминается эта версия коробочного графика, которая добавляет маркер для среднего значения, например, в Frigge et al (1989) [1]:
Левый график показывает символ + в качестве среднего маркера, а правый график использует треугольник по краю, адаптируя средний маркер из графика луча и точки опоры Doane & Tracy [2].
Смотрите также этот пост и этот пост
Если у вас нет (или вы действительно не хотите показывать) медианы, вам потребуется новый сюжет, и тогда было бы хорошо, чтобы он визуально отличался от коробочного сюжета.
Возможно, что-то вроде этого:
Если ваши цифры находятся в очень разных масштабах, но все они положительные, вы можете рассмотреть возможность работы с журналами, или вы можете сделать небольшие кратные с разными (но четко обозначенными) масштабами
Код (в настоящее время это не особенно «хороший» код, но на данный момент это просто изучение идей, это не учебник по написанию хорошего R-кода):
[1] Фригге М., Хоаглин Д.К. и Иглевич Б. (1989),
«Некоторые реализации коробочного сюжета».
Американский статистик , 43 (февраль): 50-54.
[2] Доан Д.П. и Р.Л. Трейси (2000),
«Использование дисплеев луча и опоры для исследования данных»,
Американский статистик , 54 (4): 289–290, ноябрь
источник