Однажды я наткнулся на тип сюжета для категориальных данных (то есть таблиц непредвиденных обстоятельств) в Интернете, который мне действительно понравился, но я никогда не нашел его снова, и я даже не знаю, как он называется. По сути, это было похоже на сито, в котором высота строк и ширина столбцов были масштабированы относительно предельных вероятностей. Таким образом, каждый блок был масштабирован до относительной частоты, ожидаемой при независимости. Тем не менее, он отличался от графика сита тем, что вместо того, чтобы наносить перекрестную штриховку внутри каждого блока, он наносил на карту точку (как на диаграмме рассеяния) в месте, случайно выбранном из двумерной униформы для каждого наблюдения. Таким образом, плотность точек отражает, насколько хорошо наблюдаемые значения соответствуют ожидаемым значениям. То есть, если плотность была одинаковой в каждом боксе, нулевая модель является разумной, ) не может быть очень вероятным при нулевой модели. Поскольку точки отображаются вместо перекрестной штриховки, существует простое и интуитивно понятное соответствие между нанесенным элементом и наблюдаемым количеством, что не обязательно верно для ситовых графиков (см. Ниже). Более того, случайное расположение точек придает сюжету «органичный» вид. Кроме того, цвет можно использовать для выделения полей / ячеек, которые сильно расходятся с нулевой моделью, а матрицу графиков можно использовать для изучения парных отношений между многими различными переменными, поэтому он может включать в себя преимущества аналогичных графиков.
- Кто-нибудь знает, как называется этот сюжет?
- Есть ли пакет / функция, которая будет делать это легко в R или другом программном обеспечении (скажем, Mondrian)? Я не могу найти ничего подобного в VCD . Конечно, это может быть трудно закодировано с нуля, но это будет боль.
Вот простой пример ситового графика, обратите внимание, что легко увидеть, как ожидаемые значения для разных категорий должны проигрываться при нулевой модели, но трудно совместить перекрестную штриховку с фактическими числами, получая график, который не столь же легко читаемый и эстетически отвратительный:
B ~B
A 38 4
~A 3 19
Что бы это ни стоило, у мозаичного графика есть своего рода противоположная проблема: хотя легче увидеть, какие ячейки имеют «слишком много» или «слишком мало» счетчиков (относительно нулевой модели), труднее распознать, какие отношения между ожидаемое количество было бы. В частности, ширина столбцов масштабируется относительно предельной вероятности, а высота строк - нет, что делает этот фрагмент информации практически невозможным для извлечения.
А сейчас нечто соверешнно другое...
- Кто-нибудь знает, откуда взялась конвенция использовать синий для «слишком много» и красный для «слишком мало»? Это всегда было для меня нелогичным. Мне кажется, что исключительно высокая плотность (или слишком много наблюдений) идет с жарким , а низкая плотность - с холодным , и что (по крайней мере, при освещении сцены) красные - теплые, а синие - прохладные .
Обновление: если я правильно помню, сюжет, который я видел, был в pdf главы (введение или ch1) из книги, которая была свободно доступна онлайн как маркетинговый тизер. Вот грубая версия идеи, которую я кодировал с нуля:
даже с этой грубой версией я думаю, что ее легче читать, чем ситовый график, и в некоторых отношениях легче, чем мозаичный график (например, легче распознать, каковы отношения между частотами ячеек будет под независимостью). Было бы неплохо иметь функцию , что: а. будет делать это автоматически с любой таблицей непредвиденных обстоятельств, будет иметь приятные функции, которые идут с вышеуказанными графиками (например, стандартизированная легенда остатков на мозаичном графике). b. может быть использован в качестве строительного блока матрицы сюжета, и c.
источник
R
функцияassocplot
близка к тому , что вы имеете в виду? Если нет, я уверен, чтоR
программист может изменить это илиmosaicplot
сделать то, что вы хотите.shading.points()
чтобы делать то, что вы хотите, в структуре Strucplot, которая была процитирована выше и доступна в виде виньетки вvcd
пакете.Ответы:
Книга, которую вы описали, звучит как «Визуализация категориальных данных», Michael Friendly. График, описанный в 1-й главе, который, кажется, соответствует вашему запросу, был описан как тип концептуальной модели для визуализации данных таблицы сопряженности (в общих чертах описан автором как модель динамического давления с плотностью наблюдений), и его можно увидеть в предварительном просмотре Google. для гл. 1. Книга предназначена для пользователей SAS.
Ссылка на статью по теме здесь: www.datavis.ca/papers/koln/kolnpapr.pdf
«Концептуальные модели для визуализации данных таблицы непредвиденных обстоятельств», Michael Friendly.
* кстати, автор также указан как один из авторов пакета vcd (как он был специально вдохновлен его книгой, упомянутой выше) - возможно, вы могли бы спросить его напрямую, есть ли простая модификация одной из встроенных функций, которая не очевидно
** Схема окраски, по-видимому, связывает синий цвет с положительными отклонениями от независимости и красный для отрицательных отклонений. Хотя красная схема имеет смысл в этом контексте, возможно, было бы более целесообразно использовать зеленый для представления положительных отклонений.
http://www.datavis.ca/papers/asa92.html
источник
Может быть, не то, что вы видели, но для визуализации вылетов, ожидаемых в соответствии с независимыми заговорами, мотивы хорошо мотивированы.
http://www.jstatsoft.org/v20/i03/
(Кроме того, SAS и книга M Friendly ошиблись по поводу рекомендуемой корректировки, и на многих графиках были артефакты, и это могло отвлечь их от их предполагаемой ценности.)
источник