Как определить, должна ли ось Y графика начинаться с нуля?

45

Один из распространенных способов «лежать с данными» - это использовать масштаб по оси Y, который создает впечатление, что изменения более значительны, чем они есть на самом деле.

Когда я просматриваю научные публикации или лабораторные отчеты студентов, меня часто расстраивает этот «грех визуализации данных» (который, как мне кажется, авторы совершают непреднамеренно, но все равно приводит к вводящей в заблуждение презентации).

Однако «всегда начинать ось Y с нуля» не является жестким правилом. Например, Эдвард Туфте указывает, что во временном ряду базовая линия не обязательно равна нулю:

Как правило, во временных рядах используйте базовую линию, которая показывает данные, а не нулевую точку. Если при построении данных разумно возникает нулевая точка, хорошо. Но не тратьте много пустого вертикального пространства, пытаясь достичь нулевой точки за счет сокрытия того, что происходит в самой строке данных. (Книга «Как лгать со статистикой» ошибочна в этом вопросе.)

Для примеров повсюду, где отсутствуют нулевые точки во временных рядах, взгляните на любую крупную научную публикацию. Ученые хотят показать свои данные, а не ноль.

Стремление к контекстуализации данных является хорошим, но контекст не приходит из пустого вертикального пространства, доходящего до нуля, числа, которое даже не встречается в большом количестве наборов данных. Вместо этого, для контекста, показывайте больше данных по горизонтали!

Я хочу указать на вводящую в заблуждение презентацию в рецензируемых мной работах, но я не хочу быть пуристом с нулевой осью.

Существуют ли какие-либо рекомендации, касающиеся того, когда начинать ось Y с нуля, а когда это не нужно и / или нецелесообразно? (Особенно в контексте академической работы.)

ff524
источник
3
Я думаю, что включение (не включая) 0 может вводить в заблуждение, критически зависит от рассказываемой истории.
gung - Восстановить Монику
2
В разговоре фраза «обратите внимание на сильно подавленный ноль» или подобное можно использовать, чтобы придать честность потенциально вводящей в заблуждение фигуре. Я не так доволен этим в печатном материале, но в крайнем случае вы можете использовать его и там.
dmckee
Чтобы избежать всего этого, я использую приставки всякий раз, когда это возможно. Не нужно рассчитывать средние значения и индикаторы ошибок, и они содержат ценную информацию (например, распределение данных, разброс, асимметрию, диапазон) - все в одном графике. Кроме того, вы показываете необработанные данные.
Стефан
@Stefan Box сюжеты действительно могут быть полезны. Странно, однако, что даже в некоторых учебниках объясняется ANOVA, а затем показываются сюжетные графики. Для этой цели средства, если не столбцы ошибок, безусловно, актуальны и должны быть информативными. В зависимости от разнообразия многие коробочные графики очень плохо показывают необработанные данные, поскольку они просто суммируют их. Но есть улучшения, которые помогают, например, квантильные участки. Однако, в этом контексте, обратите внимание, что показ средних и ошибочных полос никоим образом не обязывает вас показывать если это выходит за пределы диапазона данных. Yзнак равно0
Ник Кокс
@NickCox спасибо за ваш комментарий! Я согласен, что после того, как ANOVA будет сделано, показывать средние значения и индикаторы ошибок имеет больше смысла. Тем не менее, до начала какого-либо анализа я считаю, что коробочные диаграммы более информативны и дают информацию о том, как выглядят ваши данные, и может ли выбранный ANOVA быть подходящим или нет. «Ложь с данными» может уже иметь место, когда, например, выбраны параметрические тесты, но данные не соответствуют требуемым предположениям. Следовательно, для меня, как для читателя научных исследований, мне всегда нравится видеть коробочные графики, чтобы составить собственное мнение относительно представленных результатов.
Стефан

Ответы:

40
  • Не используйте пробел в графике так, чтобы это не помогло понять. Пространство необходимо, чтобы показать данные!

  • Используйте свое научное (инженерное, медицинское, социальное, деловое, ...) суждение, а также статистическое суждение. (Если вы не являетесь клиентом или клиентом, поговорите с кем-нибудь в поле, чтобы получить представление о том, что интересно или важно, предпочтительно тех, кто заказывает анализ.)

  • Покажите ноль на оси если сравнение с нулем является центральным в проблеме, или даже представляет некоторый интерес.Y

Это три простых правила. (Ничто не исключает некоторой напряженности между ними.)

Вот простой пример, но возникают все три момента: Вы измеряете температуру тела пациента в градусах Цельсия, или в градусах Фаренгейта, или даже в Кельвинах: сделайте свой выбор. В каком смысле полезно или даже логично настаивать на показе нулевой температуры? В противном случае важная, даже медицинская или физиологически важная информация будет скрыта.

Вот правдивая история из презентации. Исследователь показывал данные о соотношении полов для различных штатов и союзных территорий в Индии. График представлял собой столбчатую диаграмму, все столбцы которой начинались с нуля. Все бары были близки к одинаковой длине, несмотря на значительные различия. Это было правильно, но интересная история состояла в том, что области были разными, несмотря на сходство, а не то, что они были похожи, несмотря на различия. Я предположил, что соотношение между мужчинами и женщинами (1 или 100 женщин / 100 мужчин) было гораздо более естественным референтным уровнем. (Я также был бы открыт для использования некоторого общего уровня, такого как национальное среднее значение, в качестве ориентира.) Даже некоторые статистические люди, которые слышали эту небольшую историю, иногда отвечали: «Нет, бары должны всегда начинаться с нуля». Для меня это не лучше, чем неуместная догма в таком случае.

Упоминание гистограмм указывает, что вид используемого графика также важен. Предположу , что при температуре тела в диапазон по оси от 35 до 40 С выбрано для удобства , как в том числе всех данных, таким образом , чтобы оси «начинается» в 35. Ясно , что все стержни , начиная с 35 будет плохое кодированием данные. Но здесь проблема заключается в неправильном выборе элемента графа, а не в плохо выбранном диапазоне осей. уYY

Обычный вид графика, особенно в некоторых биологических и медицинских науках, показывает средние значения или другие сводки толстыми столбцами, начинающимися с нуля, и стандартными ошибками или интервалами, основанными на стандартном отклонении, указывающими неопределенность тонкими столбиками. Такие детонаторные или динамитные заговоры, как их называют те, кто не одобряют, могут быть популярны частично из-за изречения, что ноль всегда должен быть показан. Чистый эффект состоит в том, чтобы подчеркнуть сравнение с нулем, которому часто не хватает интереса или полезности.

Некоторые люди хотели бы показать ноль, но также добавить разрыв шкалы, чтобы показать, что масштаб прерывается. Мода меняется и технология меняется. Несколько десятилетий назад, когда исследователи составляли свои собственные графики или делегировали задачу техническим специалистам, было проще попросить, чтобы это было сделано вручную. Теперь графические программы часто не поддерживают разрывы масштаба, что, я думаю, не потеряно. Даже если они это сделают, это суетливое дополнение, которое может потратить умеренную часть графической области.

Обратите внимание, что никто не настаивает на том же правиле для оси . Почему нет? Если вы показываете климатические или экономические колебания за последнее столетие или около того, было бы странно сказать, что шкала должна начинаться на границе BC / CE или любого другого источника.Икс

Естественно, существует нулевое правило, которое применяется в дополнение к трем упомянутым.

  • Что бы вы ни делали, будьте предельно ясны. Маркируйте свои оси последовательно и информативно. Тогда поверьте, что внимательные читатели посмотрят, что вы сделали.

Таким образом, по этому вопросу я полностью согласен с Эдвардом Туфте и не согласен с Дарреллом Хаффом.

РЕДАКТИРОВАТЬ 9 мая 2016 года:

вместо того, чтобы пытаться неизменно включать нулевую базовую линию во все ваши графики, вместо этого используйте логические и значимые базовые линии

Каир, а. 2016. Истинное искусство: данные, диаграммы и карты для общения. Сан-Франциско, Калифорния: New Riders, с.136.

Ник Кокс
источник
7
В дополнение к этому: я думаю, что люди более склонны к тому, чтобы догматически придерживаться «начала с нуля», когда данные представлены столбцами, на том основании, что столбцы показывают область, а область вводит в заблуждение, если она не начинается с нуля. На точечном графике Кливленда, который в любом случае часто является более подходящей визуализацией, кажется, нет такого убедительного аргумента, чтобы начинать с нуля, и люди, похоже, более склонны проявлять гибкость в отношении того, с чего они начинают.
Серебряная рыба
4
Отличный ответ. Я задал этот вопрос в контексте рассмотрения статьи, в которой последовательно использовались неподходящие диапазоны осей (подчеркивая незначительные различия в данных). Этот ответ заставил меня осознать, что меня по- настоящему разочаровал недостаток (статистического и инженерного) суждения в понимании и интерпретации данных - гораздо более конструктивная вещь, которую нужно прокомментировать в обзоре, чем жалоба на диапазон осей.
ff524
4
Правило о начале оси с нуля имеет смысл подумать только о непрерывных переменных, которые являются отношением, поэтому ноль имеет реальное значение. Вес 0 - это не вес. И т.д. Но температуры в C или F используют произвольные значения для нуля, поэтому нет смысла даже думать о запуске там оси.
Харви Мотульский
2
3
Хорошо, но я хотел бы отметить, что точка «суждения» зависит от аудитории (аудитория всегда имеет значение!). Техническая аудитория будет читать ось и понимать последствия. Определенная часть популяции непрофессионально будет игнорировать метки осей и делать выводы из формы графика при потенциально неверных предположениях о масштабе. Если график предназначен для непрофессиональной аудитории, то вы должны учесть это.
dmckee