Я пытаюсь нарисовать скрипичные сюжеты и задаюсь вопросом, есть ли приемлемая лучшая практика для их распределения по группам. Вот три варианта, которые я пробовал использовать mtcars
набор данных R (Motor Trend Cars от 1973 года, найденный здесь ).
Равные ширины
Похоже, что делает оригинальная статья * и что vioplot
делает R ( пример ). Хорошо для сравнения формы.
Равные Области
Кажется правильным, так как каждый график является вероятностным, и поэтому площадь каждого должна равняться 1,0 в некотором координатном пространстве. Хорошо подходит для сравнения плотности внутри каждой группы, но кажется более уместным, если графики накладываются друг на друга.
Взвешенные области
Вроде равной площади, но взвешен по количеству наблюдений. 6-цилиндровый становится относительно тоньше, так как таких автомобилей меньше. Хорошо для сравнения плотности по группам.
* Сюжеты для скрипки: трассировка синергиса плотностью на коробке (DOI: 10.2307 / 2685478)
Ответы:
Квадратные участки используются для схематического описания распределения. Графики для скрипки - это просто прямоугольники, в которых блоки Q1, Q2 и Q3 заменены широким диапазоном квантилей. По этой причине, я думаю, что принятой практикой является использование одинаковой ширины между группами.
Тем не менее, вы подняли хороший вопрос: как сравнивать плотности по группам? Ответ зависит от того, смотрите ли вы на каждую группу как на собственную группу населения или на подгруппы.
источник
Честно говоря, я думаю, что вы подходите к этому с неправильной стороны. На всех трех графиках четко указана полезная информация, иначе вы не будете думать о том, какой график использовать. Исследовательский анализ данных - это понимание ваших данных. Где это соответствует ожиданиям. Где это не так. Как это сформировано по нескольким переменным.
Весь смысл EDA состоит в том, чтобы оценить, оправданы ли наши значения по умолчанию, будь то распределение или допущения по коллинеарности, статистическая модель, которая должна была использоваться, и т. Д. Таким образом, концепция EDA «по умолчанию» несколько ошибочна.
Посмотрите на все из них - или, по крайней мере, на все сюжеты, касающиеся вопроса, который вы намереваетесь задать. Нет смысла ввязываться в «Что интересно» и «Что я собираюсь игнорировать» на этапе EDA. И если мы просто передаём данные через значения по умолчанию, это не совсем EDA.
источник
А как насчет пропускной способности? Вы думали об этом?
Если вы используете настройки вашего программного обеспечения по умолчанию для получения pdf, вы, скорее всего, используете эмпирическое правило для оптимальной пропускной способности гауссовского ядра. Эта «оптимальная пропускная способность» может затем отличаться для каждого подмножества. Теперь спросите себя, сопоставимы ли формы? Может случиться так, что вы столкнетесь с измерением одной и той же переменной (оценка плотности ядра) с двойными стандартами.
Для оценки плотности ядра были разработаны четкие правила, чтобы получить правильную полосу пропускания (своего рода перекрестная проверка), но для участков скрипки они в основном игнорируются. Может быть важно, когда размеры выборки сильно отличаются.
У меня сейчас эта проблема. Что вы думаете об этом? Как вы это решаете? Любые комментарии с благодарностью.
источник