Как масштабировать скрипичные участки для сравнения?

14

Я пытаюсь нарисовать скрипичные сюжеты и задаюсь вопросом, есть ли приемлемая лучшая практика для их распределения по группам. Вот три варианта, которые я пробовал использовать mtcarsнабор данных R (Motor Trend Cars от 1973 года, найденный здесь ).

Равные ширины

Похоже, что делает оригинальная статья * и что vioplotделает R ( пример ). Хорошо для сравнения формы.

Равные площади Скрипки

Равные Области

Кажется правильным, так как каждый график является вероятностным, и поэтому площадь каждого должна равняться 1,0 в некотором координатном пространстве. Хорошо подходит для сравнения плотности внутри каждой группы, но кажется более уместным, если графики накладываются друг на друга.

Скрипки равной ширины

Взвешенные области

Вроде равной площади, но взвешен по количеству наблюдений. 6-цилиндровый становится относительно тоньше, так как таких автомобилей меньше. Хорошо для сравнения плотности по группам.

Взвешенные Участки Скрипки

* Сюжеты для скрипки: трассировка синергиса плотностью на коробке (DOI: 10.2307 / 2685478)

Xan
источник
1
Цель графиков будет в значительной степени определять, какие решения являются подходящими. Что вы пытаетесь показать им?
whuber
@whuber Хороший вопрос, хотя у меня нет прямого ответа. Я пытаюсь предоставить графику для EDA и ищу хорошее общее значение по умолчанию (и достаточно ли полезны другие параметры для отображения).
xan
Я хотел бы предложить вам контролировать графики в соответствии с вашими целями, а не принимать некоторые по умолчанию.
whuber
Я бы предположил, что ваша версия «взвешенных областей» была «Хороша для сравнения подгрупп населения», так как может иметь смысл добавить ширину, чтобы получить форму всего населения.
Генри
Я предпочитаю равные области, чтобы сохранить визуальное влияние формы распределений. Затем дополните график термометрами, показывающими размеры выборки, или просто используйте текстовые представления размеров выборки рядом со скрипками.
Фрэнк Харрелл

Ответы:

4

Квадратные участки используются для схематического описания распределения. Графики для скрипки - это просто прямоугольники, в которых блоки Q1, Q2 и Q3 заменены широким диапазоном квантилей. По этой причине, я думаю, что принятой практикой является использование одинаковой ширины между группами.

Тем не менее, вы подняли хороший вопрос: как сравнивать плотности по группам? Ответ зависит от того, смотрите ли вы на каждую группу как на собственную группу населения или на подгруппы.

Σяпязнак равно1

стог
источник
Графики для скрипки были изначально представлены и определены как гибридный участок и график плотности. Быстрый Google показывает, что на практике многие графики, представленные на скрипках, опускаются, и многие не показывают квантили как таковые. Итак, определения здесь широко открыты.
Ник Кокс
5

Честно говоря, я думаю, что вы подходите к этому с неправильной стороны. На всех трех графиках четко указана полезная информация, иначе вы не будете думать о том, какой график использовать. Исследовательский анализ данных - это понимание ваших данных. Где это соответствует ожиданиям. Где это не так. Как это сформировано по нескольким переменным.

Весь смысл EDA состоит в том, чтобы оценить, оправданы ли наши значения по умолчанию, будь то распределение или допущения по коллинеарности, статистическая модель, которая должна была использоваться, и т. Д. Таким образом, концепция EDA «по умолчанию» несколько ошибочна.

Посмотрите на все из них - или, по крайней мере, на все сюжеты, касающиеся вопроса, который вы намереваетесь задать. Нет смысла ввязываться в «Что интересно» и «Что я собираюсь игнорировать» на этапе EDA. И если мы просто передаём данные через значения по умолчанию, это не совсем EDA.

фомиты
источник
+1 за просвещающие замечания по поводу EDA, хотя мне все еще не ясно, идет ли OP после EDA или нет ...
chl
@chl Некоторые комментарии ОП предполагают, что он хочет этого. Если это просто «какой из них более полезен», я боюсь, что ответ становится еще более двусмысленным «хорошо, что вы хотите показать?»
Fomite
Ах, я пропустил этот комментарий ... Так что ваш ответ снова стоит +1, но я не могу :(
chl
4

А как насчет пропускной способности? Вы думали об этом?

Если вы используете настройки вашего программного обеспечения по умолчанию для получения pdf, вы, скорее всего, используете эмпирическое правило для оптимальной пропускной способности гауссовского ядра. Эта «оптимальная пропускная способность» может затем отличаться для каждого подмножества. Теперь спросите себя, сопоставимы ли формы? Может случиться так, что вы столкнетесь с измерением одной и той же переменной (оценка плотности ядра) с двойными стандартами.

Для оценки плотности ядра были разработаны четкие правила, чтобы получить правильную полосу пропускания (своего рода перекрестная проверка), но для участков скрипки они в основном игнорируются. Может быть важно, когда размеры выборки сильно отличаются.

У меня сейчас эта проблема. Что вы думаете об этом? Как вы это решаете? Любые комментарии с благодарностью.

Хольгер Хоффманн
источник