В моей области обычным способом построения парных данных является серия тонких наклонных отрезков, накладывающих их на медиану и КИ медианы для двух групп:
Однако этот тип графика становится намного сложнее для чтения, так как количество точек данных становится очень большим (в моем случае у меня порядка 10000 пар):
Уменьшение альфы немного помогает, но все же это не так здорово. В поисках решения я наткнулся на эту статью и решил попробовать реализовать «график параллельных линий». Опять же, это очень хорошо работает для небольшого числа точек данных:
Я полагаю, что мог бы отдельно показать распределения для двух групп, например, с коробочными диаграммами или скрипками, и построить линию с полосами ошибок вверху, показывающую два медианы / КИ, но мне действительно не нравится эта идея, так как она не будет передавать парный характер данных.
Я также не слишком заинтересован в идее двумерной диаграммы рассеяния: я бы предпочел более компактное представление, в идеале такое, в котором значения для двух групп изображены вдоль одной оси. Для полноты, вот как данные выглядят как двумерный разброс:
Кто-нибудь знает лучший способ представления парных данных с очень большим размером выборки? Не могли бы вы связать меня с некоторыми примерами?
редактировать
Извините, я явно недостаточно хорошо объяснил, что я ищу. Да, график 2D-разброса работает, и есть много способов улучшить его, чтобы лучше передать плотность точек - я мог бы раскрасить точки в соответствии с оценкой плотности ядра, я мог бы сделать гистограмму 2D Я мог бы построить контуры поверх точек и т. Д. И т. Д.
Тем не менее, я думаю, что это излишне для сообщения, которое я пытаюсь передать. Меня не очень интересует показ 2D плотности точек как таковой - все, что мне нужно сделать, это показать, что значения для «баров», как правило, больше, чем для «точек», настолько простым и понятным, насколько это возможно. и без потери существенного парного характера данных. В идеале я хотел бы построить парные значения для двух групп вдоль одной, а не ортогональной оси, поскольку это облегчает визуальное сравнение их.
Возможно, нет лучшего варианта, чем точечная диаграмма, но я хотел бы знать, есть ли альтернативы, которые могут сработать.
bar
на горизонтальной иdot
вертикальной оси в виде диаграммы рассеяния?Ответы:
Учитывая то, как я понимаю вашу цель, я просто вычислю парные различия (
bars - dots
), а затем нанесу эти различия на гистограмму или график оценки плотности ядра. Вы также можете добавить любую комбинацию (1) вертикальной линии, соответствующей нулевой разности (2) любой выбор процентилей.Это будет подчеркивать, какая часть данных имеет
bars
превышениеdots
, и, как правило, каковы наблюдаемые различия.(Я предположил, что вы не заинтересованы в отображении фактических, необработанных значений
bars
иdots
на одном графике.)Можно также построить доверительные интервалы или последующие достоверные интервалы, чтобы указать, являются ли эти различия значительными. (H / T @MrMeritology!)
источник
Графически вы могли бы показать линии, как вы показали, с уменьшенным альфа-фактором (*), возможно, уменьшив его еще больше, показав только случайную выборку линий. Тогда вы можете раскрасить линии в соответствии с наклоном ...
Для графиков Бланда-Альтмана, упомянутых в комментарии Ника Кокса, посмотрите, например, пример Соглашения между методами с несколькими наблюдениями на человека или просмотрите тег bland-altman-plot .
(*) альфа-коэффициент здесь представляет собой графический параметр, делающий точки на графике прозрачными, поэтому первые точки на графике не полностью перекрываются последующим перепечатыванием.
источник
Я бы предпочел 2D-график рассеяния. Я бы нарисовал контрольную линию светло-серым для большей контрастности в переполненной области. Чтобы уменьшить скученность, нарисуйте маркеры без рамки, еще больше уменьшите альфа, уменьшите размер маркера.
Тем не менее, если вы больше интересуетесь типичными парами, чем крыльями распределения, попробуйте построить линейную диаграмму кумулятивной суммы по
dots
сравнению с кумулятивной суммойbars
. Сюжет еще 2D, но с гораздо меньшим количеством чернил. Чтобы сохранить также область построения, вы можете повернуть трассу на 45 °, чтобы рамка служила опорным направлением.Этот график также показывает любую тенденцию в данных. Если известно, что процесс является стационарным, сортируйте пары, например, по их геометрическому среднему значению
sqrt(bars*dots)
.источник
Я бы порекомендовал построить линии так, как они есть, для медианы и квартилей, или столько процентилей, сколько вы хотите в этом отношении. Медиана может оставаться более толстой / более заметной, чем другие процентильные линии. Это помогло бы сохранить способность видеть, как данные ведут себя во всем распределении, не ставя под угрозу простоту и знакомость графика, который в настоящее время используется в вашей области.
Кроме того, при таком большом размере выборки средний или средний тренд с барами ошибок, вероятно, будет достаточным, так как вы будете так тщательно пользоваться центральной теоремой о пределе. Биомедицинское поле также опирается на эти парные линейные графики, но это часто имеет место, потому что размер выборки может быть порядка 10-20, поэтому важно визуализировать потенциальные точки воздействия.
источник
Мое первое предложение - точечный заговор.
Если 10000 точек, неравномерно распределенных на вашем графике, все еще являются размытым облаком, рассмотрите тепловую карту. Цвет пикселя при x = 10,5, y = 11,5 будет указывать, сколько раз значение между 10,45 и 10,55 отображается на значение между 11,45 и 11,55: 0 = белый = RGB (255,255,255), 1 = синий = RGB (0, 0,255), 2 = RGB (1,0254), ... 256 и выше = RGB (255,0,0) = красный
источник