Какие есть альтернативы сломанным топорам?

28

Пользователи часто испытывают желание разбить значения осей, чтобы представить данные разных порядков величины на одном графике (см. Здесь ). Хотя это может быть удобно, это не всегда предпочтительный способ отображения данных (в лучшем случае может вводить в заблуждение). Каковы альтернативные способы отображения данных, которые различаются на несколько порядков?

Я могу придумать два способа: преобразовать данные в лог или использовать решетчатые графики. Какие есть другие варианты?

Роман Луштрик
источник
1
Эти руководства Excel выглядят довольно
5
Можете ли вы представить, как учебник по R выглядит для человека, который никогда не видел ни строчки кода в своей жизни? :)
Роман Луштрик
3
Хорошо, но я также могу представить, что все эти люди рисуют вручную десятки разрывов баров в Excel и считают, что это единственный (и, следовательно, самый простой и быстрый) способ сделать это. Или люди, которые часами пытаются объединить форматирование в большом документе Word.
1
«Отец, прости им, потому что они не знают, что делают». приходит на ум. :)
Роман Луштрик
3
Официальная группа stats.stackexchange.com: Сломанные Топоры.
Мэтт Паркер

Ответы:

17

Я очень осторожен в использовании логарифмических осей на гистограммах . Проблема в том, что вам нужно выбрать начальную точку оси, и это почти всегда произвольно. Вы можете сделать так, чтобы две полосы имели очень разную высоту или почти одинаковую высоту, просто изменив минимальное значение на оси. Все эти три графика отображают одни и те же данные: альтернативный текст

Альтернатива прерывистым осям, о которой еще никто не упомянул, - просто показать таблицу значений. Во многих случаях таблицы легче понять, чем графики.

Харви Мотульский
источник
3
Эти графики выглядят очень обманчиво и потому, что на них нет полос ошибок. Если вы добавите панели ошибок, разница будет выглядеть менее существенной. Или вы можете использовать графики «усы и усы», которые в основном избегают подобных проблем.
Нико
5
ИМХО, происхождение является проблемой гистограмм, и не имеет ничего общего с логарифмом. Такое же обманчивое впечатление можно достичь с помощью линейных осей.
cbeleites поддерживает Монику
@cbeleites. Да, вы можете создавать вводящие в заблуждение гистограммы с линейной осью, изменяя базовую линию. Но с линейной осью естественная базовая линия равна нулю. С логарифмическими осями, в большинстве случаев, нет естественной базовой линии.
Харви Мотульский
@HarveyMotulsky: прошу не согласиться. Существует целый класс данных, который хорошо описывается логарифмическими осями и имеет естественную базовую линию: мультипликативные изменения / отношения. В вашем примере, возможно, обработанный сигнал в 15 раз превышает сигнал управления. Если это предположение имеет смысл для приложения, у вас есть «естественная» базовая линия для журнала. Если нет, может быть, другое преобразование является более разумным?
cbeleites поддерживает Монику
1
@cbeleites Я согласен, что если переменная является отношением, поэтому 1,0 является естественной базовой линией, то ее отображение в логарифмическом масштабе имеет смысл.
Харви Мотульский
11

Некоторые дополнительные идеи:

(1) Вам не нужно ограничиваться логарифмическим преобразованием. Например, найдите на этом сайте тег «data-translation». Некоторые данные хорошо поддаются определенным преобразованиям, таким как корень или логит. (Такие преобразования - даже журналы - обычно следует избегать при публикации графики для нетехнической аудитории. С другой стороны, они могут быть отличными инструментами для просмотра шаблонов в данных.)

(2) Вы можете позаимствовать стандартную картографическую технику для вставки детали карты внутри или рядом с ней. В частности, вы должны построить сами экстремальные значения на одной диаграмме и все (или) остальные данные на другой с более ограниченным диапазоном осей, а затем графически расположить их вместе с указанием (визуальным и / или письменным) отношения между ними. Подумайте о карте США, на которой Аляска и Гавайи расположены в разных масштабах. (Это не будет работать со всеми видами графиков, но может быть эффективным с гистограммами на вашей иллюстрации.) [Я вижу, что это похоже на недавний ответ mbq.]

(3) Вы можете показать разбитый график рядом с тем же графиком на неразбитых осях.

(4) В случае примера с гистограммой выберите подходящую (возможно, сильно растянутую) вертикальную ось и предоставьте утилиту панорамирования. [Это скорее уловка, чем действительно полезная техника, ИМХО, но она может быть полезна в некоторых особых случаях.]

(5) Выберите другую схему для отображения данных. Вместо столбчатой ​​диаграммы, которая использует длину для представления значений, выберите диаграмму, в которой области символов представляют значения, например. [Очевидно, компромиссы вовлечены здесь.]

Ваш выбор техники, вероятно, будет зависеть от назначения графика: например, графики, созданные для исследования данных, часто отличаются от графиков для широкой аудитории.

Whuber
источник
8

Может быть, это можно отнести к решетке, но я попробую; постройте все столбцы, масштабированные до максимума на одной панели, и поместите другую панель, показывающую увеличение на нижних. Я использовал эту технику один раз в случае диаграммы рассеяния, и результат был довольно хорошим.


источник
8

Я бы отделил проблему осей бревен от проблемы гистограмм.


Aзнак равноLгя0-Lгяя0

Гистограммы никогда не могут быть разумными, если нет разумного и фиксированного источника, который берет на себя роль элемента управления (базовый, пустой). Но это не имеет никакого отношения к осям бревен.
Единственное регулярное использование для гистограмм - это гистограммы. Но я мог бы предположить, что они преуспевают, чтобы показать разницу с этим происхождением (вы также сразу видите, является ли разница положительной или отрицательной). Поскольку столбцы изображают область, я склонен думать об элементах диаграммы как о очень дискретной версии области под кривой. То есть ось X должна иметь метрическое значение (что может иметь место со временем, но не с городами).

Если бы я задавался вопросом, какое происхождение использовать для записи чего-либо, имеющего «естественное» происхождение в 0, я отступил бы назад и немного подумал о том, что происходит. Очень часто такие проблемы являются лишь показателем того, что журнал здесь не является разумным преобразованием.

Теперь гистограмма с логарифмическими осями будет подчеркивать увеличение или уменьшение, которые происходят в мультипликаторах. Разумные примеры, которые я могу вспомнить прямо сейчас, имеют линейную связь с интересующей ценностью. Но, может быть, кто-то найдет хороший пример.

Поэтому я думаю, что преобразование данных должно быть разумным с точки зрения значения данных под рукой. Это имеет место с физико-химическими единицами, о которых я упоминал выше (A пропорционально концентрациям, а pH имеет, например, линейную зависимость от напряжения в pH-метре). На самом деле, это так, что модуль журнала получает новое имя и используется линейным образом.

Наконец, что не менее важно, я пришел из вибрационной спектроскопии, где довольно часто используются сломанные оси. И я считаю, что это один из немногих примеров, когда ломание осей не обманывает. Тем не менее, у нас нет изменений в порядке величины. У нас просто неинформативная область от 30 до 40% нашего диапазона x: Вот пример: спектр для этого образца деталь между 1800 - 2800 / см не может содержать никакой полезной информации.
Поэтому удален неинформативный спектральный диапазон (который также указывает спектральные диапазоны, которые мы фактически используем для хемометрического моделирования): неинформативная часть спектра удалена

Но для интерпретации данных нам нужны точные показания x-позиции. Но, как правило, нам не нужны множители, которые охватывают различные диапазоны (то есть, есть такие отношения, но большинство связей более сложные. Например: сигнал на 3050 / см, поэтому у нас есть ненасыщенное или ароматическое вещество. Но нет сильного сигнала на 1000 / см. , так что нет моно, мета, ни 1,3,5-замещенного ароматического кольца ...)
Так что лучше изобразить х в большем масштабе (на самом деле мы часто используем миллиметровые листы, такие как направляющие или обозначаем точное местоположение). Итак, мы разбиваем ось и получаем большее масштабирование по x: спектр - ломаная ось

На самом деле, это очень похоже на огранку: граненая версия
но пунктирная ось ИМХО подчеркивает, что масштаб оси X в обеих частях одинаков. Т.е. интервалы внутри обозначенных областей одинаковы.

Чтобы подчеркнуть малые интенсивности (ось Y), мы используем увеличенные вставки:
введите описание изображения здесь
[ ... Подробнее см. Увеличенную (x 20) область νCH синим цветом ... ]

И это, конечно, возможно с примером на связанных графиках.

cbeleites поддерживает Монику
источник
2

Две идеи, на которые ссылались, но которые не были подробно описаны, когда я смотрел на превосходные ответы и комментарии, заключались в том, что вы используете гистограмму «способом, несовместимым с маркировкой» и нормализованными / безразмерными данными.

Тип участка:

Диаграмма в виде звезды / паука / радара (ссылка) (ссылка) часто очень хороша для сравнения нескольких разных вещей по нескольким координатам. Существует ряд очень полезных сюжетов, которые (к сожалению) редко встречаются в бизнес-презентациях, вероятно потому, что руководство предпочитает использовать выводы для принятия решений, а не использовать информацию для понимания, а затем использовать понимание для принятия решений. В бизнесе иногда очень трудно достичь консенсуса, и поэтому подход, основанный только на результатах, может принести большую отдачу в среде, основанной на консенсусе и принятии решений. Это сообщает популярность столбчатой ​​диаграммы. Пожалуйста, рассмотрите примеры других типов графиков, которые хороши для понимания (ссылка) .

Трансформация:

Если вы поделите значения, которые вы наносите на график, на «характеристическое» значение, то вы можете преобразовать масштабирование для улучшения читабельности без потери информации. Жидкие Динамики предпочитают безразмерные числа из-за их предсказательной полезности и их эластичности в применении. Они рассматривают такие вещи, как теорема Бекингема Пи, как источники для кандидатов безразмерных форм (ссылка) . Популярные и полезные безразмерные числа включают число Рейнольдса, число Маха, число Био, число Грасгофа, число Пи, число Роли, число Стокса и число Шервуда. (ссылка) Вам не нужно быть физиком, чтобы любить безразмерные числа, потому что они полезны в нефизических приложениях. Такие показатели, как плотность, однородность, округлость и копланарность, могут определять изображения, поля пикселей или многомерные распределения вероятностей. Не просто подумайте о том, чтобы взять логарифм или относительное расстояние от известного значения - вы также можете рассмотреть возможность инвертирования чисел, взятия их квадратных корней.

Удачи. Пожалуйста, дайте нам знать, как все получается.

EngrStudent - Восстановить Монику
источник
1
Большинство органов, занимающихся данными, категорически против использования радиолокационных карт. Их трудно интерпретировать. Гораздо лучшая альтернатива - диаграмма параллельных координат .
Джон Пельтье
@JonPeltier - я согласен, но в Excel не было (на тот момент, когда я отвечал) четкого способа составить параллельную координатную диаграмму, поэтому его аудитория, вероятно, будет изо всех сил пытаться понять.
EngrStudent - Восстановить Монику
1

Решение по ломаной оси работает лучше всего, когда на графике имеется четкий разрыв, а ордината помечена так, что зазор очевиден. Преимущество этого состоит в том, что масштаб сохраняется для двух наборов значений. Панельные графики с разными масштабами могут не отражать относительные различия в группах с низким и высоким уровнем. Мне действительно нравится идея увеличения масштаба, который я запрограммировал для диаграмм рассеяния, но не думал использовать для гистограмм.

user4983
источник