Делая некоторые EDA, я решил использовать рамочный график, чтобы проиллюстрировать разницу между двумя уровнями фактора.
Способ, которым ggplot отображал рамочный график, был удовлетворительным, но немного упрощенным (первый график ниже). Изучая характеристики коробочных участков, я начал экспериментировать с выемками.
Я понимаю, что метки отображают CI вокруг медианы, и что если две метки «метки не перекрывают друг друга, есть« убедительные доказательства »- при уровне достоверности 95% - медианы отличаются.
В моем случае (второй график) вырезы не имеют значительного перекрытия. Но почему нижняя часть коробки с правой стороны принимает эту странную форму?
Отображение тех же данных на графике скрипки не указывало на необычность плотности вероятности соответствующей скрипки.
ggplot2
. Мне также нравится идея построения отдельных точек данных, но она разочарована тем, что точки внутри темного блока становятся невидимыми.Ответы:
Это указывает на то, что 25-й процентиль составляет около 21, 75-й процентиль - около 30,5. А нижний и верхний пределы выемки составляют около 18 и 27.
Распространенной причиной является то, что ваше распределение искажено или размер выборки низкий. Граница надреза основана на:
Если расстояние между медианой и 25-м процентилем и расстояние между медианой и 75-м процентилем чрезвычайно различны (например, справа) и / или размер выборки невелик, вырез будет шире. Если он достаточно широк, чтобы граница надреза была более экстремальной, чем 25-й и 75-й процентили (иначе, прямоугольник), то на графике с надрезом будет отображаться эта форма «наизнанку».
источник