Гистограммы дают хорошее представление о распределении переменной. Тем не менее, блочные графики пытаются сделать то же самое, но не дают хорошего представления о распределении этой переменной.
Я не понимаю, почему люди используют коробочные участки. Гистограммы лучше во всех отношениях. Есть ли причина, по которой я бы использовал их обоих?
Единственное, что я думаю, что коробочные участки - это выбросы! Он говорит нам, какие наблюдения могут быть выбросами.
Ответы:
Тот факт, что блочные графики предоставляют больше сводных данных о распределении, также может рассматриваться как преимущество в некоторых случаях. Иногда, когда мы сравниваем распределения, мы не заботимся об общей форме, а о том, где распределения лежат относительно друг друга. Построение квантилей рядом друг с другом может быть полезным способом, не отвлекая нас от других деталей, которые могут нас не волновать.
источник
В одномерном случае блочные диаграммы предоставляют некоторую информацию, которой не предоставляет гистограмма (по крайней мере, не явно). То есть, как правило, он обеспечивает медиану, 25-й и 75-й процентиль, мин / макс, которая не является выбросом и явно разделяет точки, которые считаются выбросами. Все это может быть «очерчено» из гистограммы (и может быть лучше, если в случае выбросов).
Тем не менее, гораздо большее преимущество заключается в сравнении распределений между различными группами одновременно. С 10+ группами это утомительное задание с параллельными гистограммами, но очень легко с коробочными графиками.
Как вы упомянули, участки для игры на скрипке (или в виде бобов) являются несколько более информативными альтернативами. Тем не менее, они требуют немного больше статистических знаний, чем блочные графики (т. Е. Если они представляются нестатистической аудитории, это может быть немного более пугающим), а блочные графики встречаются намного дольше, чем оценщики плотности ядра, и, следовательно, их большая популярность.
источник
Если я покажу вам гистограмму и спрошу вас, где находится медиана, вы можете довольно долго выяснить это ... и тогда вы получите только приблизительное значение. Если я сделаю то же самое с коробочным сюжетом, у вас это будет немедленно; если это то, что вас интересует, очевидно, выигрывают боксы.
Я согласен с тем, что боксплоты не так эффективны, как описание распределения одного образца, так как они уменьшают его до нескольких пунктов, и это мало о чем говорит.
Тем не менее, если вы сравниваете множество десятков дистрибутивов, все детали каждого из них могут содержать больше информации, чем их легко сравнить - вы можете захотеть сократить информацию до меньшего количества вещей для сравнения.
Если больше информации лучше, есть много лучших вариантов, чем гистограмма; например, стеблевой и листовой график или график ecdf / quantile.
Или вы можете добавить информацию к гистограмме:
(сюжеты из этого ответа )
Первый из них - добавление узкого поля в поле - дает вам любые преимущества, которые можно получить с любого дисплея.
источник
Гистограммы предоставляют только диапазон частоты наблюдений, в то время как блочные графики лучше показывают, где лежат несколько параметров распределения, примерное среднее и отклонения, которые не могут быть представлены гистограммами. Таким образом, блочные графики используются в качестве эффективного сравнительного инструмента, если имеется несколько распределений.
источник