Пользователи часто испытывают желание разбить значения осей, чтобы представить данные разных порядков величины на одном графике (см. Здесь ). Хотя это может быть удобно, это не всегда предпочтительный способ отображения данных (в лучшем случае может вводить в заблуждение). Каковы альтернативные способы отображения данных, которые различаются на несколько порядков?
Я могу придумать два способа: преобразовать данные в лог или использовать решетчатые графики. Какие есть другие варианты?
data-visualization
logarithm
Роман Луштрик
источник
источник
Ответы:
Я очень осторожен в использовании логарифмических осей на гистограммах . Проблема в том, что вам нужно выбрать начальную точку оси, и это почти всегда произвольно. Вы можете сделать так, чтобы две полосы имели очень разную высоту или почти одинаковую высоту, просто изменив минимальное значение на оси. Все эти три графика отображают одни и те же данные:
Альтернатива прерывистым осям, о которой еще никто не упомянул, - просто показать таблицу значений. Во многих случаях таблицы легче понять, чем графики.
источник
Некоторые дополнительные идеи:
(1) Вам не нужно ограничиваться логарифмическим преобразованием. Например, найдите на этом сайте тег «data-translation». Некоторые данные хорошо поддаются определенным преобразованиям, таким как корень или логит. (Такие преобразования - даже журналы - обычно следует избегать при публикации графики для нетехнической аудитории. С другой стороны, они могут быть отличными инструментами для просмотра шаблонов в данных.)
(2) Вы можете позаимствовать стандартную картографическую технику для вставки детали карты внутри или рядом с ней. В частности, вы должны построить сами экстремальные значения на одной диаграмме и все (или) остальные данные на другой с более ограниченным диапазоном осей, а затем графически расположить их вместе с указанием (визуальным и / или письменным) отношения между ними. Подумайте о карте США, на которой Аляска и Гавайи расположены в разных масштабах. (Это не будет работать со всеми видами графиков, но может быть эффективным с гистограммами на вашей иллюстрации.) [Я вижу, что это похоже на недавний ответ mbq.]
(3) Вы можете показать разбитый график рядом с тем же графиком на неразбитых осях.
(4) В случае примера с гистограммой выберите подходящую (возможно, сильно растянутую) вертикальную ось и предоставьте утилиту панорамирования. [Это скорее уловка, чем действительно полезная техника, ИМХО, но она может быть полезна в некоторых особых случаях.]
(5) Выберите другую схему для отображения данных. Вместо столбчатой диаграммы, которая использует длину для представления значений, выберите диаграмму, в которой области символов представляют значения, например. [Очевидно, компромиссы вовлечены здесь.]
Ваш выбор техники, вероятно, будет зависеть от назначения графика: например, графики, созданные для исследования данных, часто отличаются от графиков для широкой аудитории.
источник
Может быть, это можно отнести к решетке, но я попробую; постройте все столбцы, масштабированные до максимума на одной панели, и поместите другую панель, показывающую увеличение на нижних. Я использовал эту технику один раз в случае диаграммы рассеяния, и результат был довольно хорошим.
источник
Я бы отделил проблему осей бревен от проблемы гистограмм.
Гистограммы никогда не могут быть разумными, если нет разумного и фиксированного источника, который берет на себя роль элемента управления (базовый, пустой). Но это не имеет никакого отношения к осям бревен.
Единственное регулярное использование для гистограмм - это гистограммы. Но я мог бы предположить, что они преуспевают, чтобы показать разницу с этим происхождением (вы также сразу видите, является ли разница положительной или отрицательной). Поскольку столбцы изображают область, я склонен думать об элементах диаграммы как о очень дискретной версии области под кривой. То есть ось X должна иметь метрическое значение (что может иметь место со временем, но не с городами).
Если бы я задавался вопросом, какое происхождение использовать для записи чего-либо, имеющего «естественное» происхождение в 0, я отступил бы назад и немного подумал о том, что происходит. Очень часто такие проблемы являются лишь показателем того, что журнал здесь не является разумным преобразованием.
Теперь гистограмма с логарифмическими осями будет подчеркивать увеличение или уменьшение, которые происходят в мультипликаторах. Разумные примеры, которые я могу вспомнить прямо сейчас, имеют линейную связь с интересующей ценностью. Но, может быть, кто-то найдет хороший пример.
Поэтому я думаю, что преобразование данных должно быть разумным с точки зрения значения данных под рукой. Это имеет место с физико-химическими единицами, о которых я упоминал выше (A пропорционально концентрациям, а pH имеет, например, линейную зависимость от напряжения в pH-метре). На самом деле, это так, что модуль журнала получает новое имя и используется линейным образом.
Наконец, что не менее важно, я пришел из вибрационной спектроскопии, где довольно часто используются сломанные оси. И я считаю, что это один из немногих примеров, когда ломание осей не обманывает. Тем не менее, у нас нет изменений в порядке величины. У нас просто неинформативная область от 30 до 40% нашего диапазона x: Вот пример: для этого образца деталь между 1800 - 2800 / см не может содержать никакой полезной информации.
Поэтому удален неинформативный спектральный диапазон (который также указывает спектральные диапазоны, которые мы фактически используем для хемометрического моделирования):
Но для интерпретации данных нам нужны точные показания x-позиции. Но, как правило, нам не нужны множители, которые охватывают различные диапазоны (то есть, есть такие отношения, но большинство связей более сложные. Например: сигнал на 3050 / см, поэтому у нас есть ненасыщенное или ароматическое вещество. Но нет сильного сигнала на 1000 / см. , так что нет моно, мета, ни 1,3,5-замещенного ароматического кольца ...)
Так что лучше изобразить х в большем масштабе (на самом деле мы часто используем миллиметровые листы, такие как направляющие или обозначаем точное местоположение). Итак, мы разбиваем ось и получаем большее масштабирование по x:
На самом деле, это очень похоже на огранку:
но пунктирная ось ИМХО подчеркивает, что масштаб оси X в обеих частях одинаков. Т.е. интервалы внутри обозначенных областей одинаковы.
Чтобы подчеркнуть малые интенсивности (ось Y), мы используем увеличенные вставки:
[ ... Подробнее см. Увеличенную (x 20) область νCH синим цветом ... ]
И это, конечно, возможно с примером на связанных графиках.
источник
Две идеи, на которые ссылались, но которые не были подробно описаны, когда я смотрел на превосходные ответы и комментарии, заключались в том, что вы используете гистограмму «способом, несовместимым с маркировкой» и нормализованными / безразмерными данными.
Тип участка:
Диаграмма в виде звезды / паука / радара (ссылка) (ссылка) часто очень хороша для сравнения нескольких разных вещей по нескольким координатам. Существует ряд очень полезных сюжетов, которые (к сожалению) редко встречаются в бизнес-презентациях, вероятно потому, что руководство предпочитает использовать выводы для принятия решений, а не использовать информацию для понимания, а затем использовать понимание для принятия решений. В бизнесе иногда очень трудно достичь консенсуса, и поэтому подход, основанный только на результатах, может принести большую отдачу в среде, основанной на консенсусе и принятии решений. Это сообщает популярность столбчатой диаграммы. Пожалуйста, рассмотрите примеры других типов графиков, которые хороши для понимания (ссылка) .
Трансформация:
Если вы поделите значения, которые вы наносите на график, на «характеристическое» значение, то вы можете преобразовать масштабирование для улучшения читабельности без потери информации. Жидкие Динамики предпочитают безразмерные числа из-за их предсказательной полезности и их эластичности в применении. Они рассматривают такие вещи, как теорема Бекингема Пи, как источники для кандидатов безразмерных форм (ссылка) . Популярные и полезные безразмерные числа включают число Рейнольдса, число Маха, число Био, число Грасгофа, число Пи, число Роли, число Стокса и число Шервуда. (ссылка) Вам не нужно быть физиком, чтобы любить безразмерные числа, потому что они полезны в нефизических приложениях. Такие показатели, как плотность, однородность, округлость и копланарность, могут определять изображения, поля пикселей или многомерные распределения вероятностей. Не просто подумайте о том, чтобы взять логарифм или относительное расстояние от известного значения - вы также можете рассмотреть возможность инвертирования чисел, взятия их квадратных корней.
Удачи. Пожалуйста, дайте нам знать, как все получается.
источник
Решение по ломаной оси работает лучше всего, когда на графике имеется четкий разрыв, а ордината помечена так, что зазор очевиден. Преимущество этого состоит в том, что масштаб сохраняется для двух наборов значений. Панельные графики с разными масштабами могут не отражать относительные различия в группах с низким и высоким уровнем. Мне действительно нравится идея увеличения масштаба, который я запрограммировал для диаграмм рассеяния, но не думал использовать для гистограмм.
источник