Как интерпретировать участки с надрезами

11

Делая некоторые EDA, я решил использовать рамочный график, чтобы проиллюстрировать разницу между двумя уровнями фактора.

Способ, которым ggplot отображал рамочный график, был удовлетворительным, но немного упрощенным (первый график ниже). Изучая характеристики коробочных участков, я начал экспериментировать с выемками.

Я понимаю, что метки отображают CI вокруг медианы, и что если две метки «метки не перекрывают друг друга, есть« убедительные доказательства »- при уровне достоверности 95% - медианы отличаются.

В моем случае (второй график) вырезы не имеют значительного перекрытия. Но почему нижняя часть коробки с правой стороны принимает эту странную форму?

Отображение тех же данных на графике скрипки не указывало на необычность плотности вероятности соответствующей скрипки.

рис.1 боксплот

рис.2 бокс с надрезом

RDJ
источник
1
В вашем коде ggplot вы должны использовать fill = factor (am), поскольку в настоящее время am используется как числовая переменная.
rnso
Это отличное место @rnso
RDJ
Кто-нибудь может опубликовать исходные данные? Я думаю, они из стандартной песочницы для ggplot2. Мне также нравится идея построения отдельных точек данных, но она разочарована тем, что точки внутри темного блока становятся невидимыми.
Ник Кокс

Ответы:

18

В моем случае (второй график) вырезы не имеют значительного перекрытия. Но почему нижняя часть коробки с правой стороны принимает эту странную форму? Как мне это объяснить?

Это указывает на то, что 25-й процентиль составляет около 21, 75-й процентиль - около 30,5. А нижний и верхний пределы выемки составляют около 18 и 27.

Распространенной причиной является то, что ваше распределение искажено или размер выборки низкий. Граница надреза основана на:

меdяaN±1,57×яQрN

Если расстояние между медианой и 25-м процентилем и расстояние между медианой и 75-м процентилем чрезвычайно различны (например, справа) и / или размер выборки невелик, вырез будет шире. Если он достаточно широк, чтобы граница надреза была более экстремальной, чем 25-й и 75-й процентили (иначе, прямоугольник), то на графике с надрезом будет отображаться эта форма «наизнанку».

Penguin_Knight
источник
1
Большое спасибо за ваше подробное объяснение. Позвольте мне спросить, почему нижний и верхний пределы выемки составляют около 17 и 24, а не около 18 и 27 (на правом коробочном графике)?
Денис
@Denis, спасибо, что поймали это. Я пересмотрел это.
Penguin_Knight