Один из распространенных способов «лежать с данными» - это использовать масштаб по оси Y, который создает впечатление, что изменения более значительны, чем они есть на самом деле.
Когда я просматриваю научные публикации или лабораторные отчеты студентов, меня часто расстраивает этот «грех визуализации данных» (который, как мне кажется, авторы совершают непреднамеренно, но все равно приводит к вводящей в заблуждение презентации).
Однако «всегда начинать ось Y с нуля» не является жестким правилом. Например, Эдвард Туфте указывает, что во временном ряду базовая линия не обязательно равна нулю:
Как правило, во временных рядах используйте базовую линию, которая показывает данные, а не нулевую точку. Если при построении данных разумно возникает нулевая точка, хорошо. Но не тратьте много пустого вертикального пространства, пытаясь достичь нулевой точки за счет сокрытия того, что происходит в самой строке данных. (Книга «Как лгать со статистикой» ошибочна в этом вопросе.)
Для примеров повсюду, где отсутствуют нулевые точки во временных рядах, взгляните на любую крупную научную публикацию. Ученые хотят показать свои данные, а не ноль.
Стремление к контекстуализации данных является хорошим, но контекст не приходит из пустого вертикального пространства, доходящего до нуля, числа, которое даже не встречается в большом количестве наборов данных. Вместо этого, для контекста, показывайте больше данных по горизонтали!
Я хочу указать на вводящую в заблуждение презентацию в рецензируемых мной работах, но я не хочу быть пуристом с нулевой осью.
Существуют ли какие-либо рекомендации, касающиеся того, когда начинать ось Y с нуля, а когда это не нужно и / или нецелесообразно? (Особенно в контексте академической работы.)
источник
Ответы:
Не используйте пробел в графике так, чтобы это не помогло понять. Пространство необходимо, чтобы показать данные!
Используйте свое научное (инженерное, медицинское, социальное, деловое, ...) суждение, а также статистическое суждение. (Если вы не являетесь клиентом или клиентом, поговорите с кем-нибудь в поле, чтобы получить представление о том, что интересно или важно, предпочтительно тех, кто заказывает анализ.)
Покажите ноль на оси если сравнение с нулем является центральным в проблеме, или даже представляет некоторый интерес.Y
Это три простых правила. (Ничто не исключает некоторой напряженности между ними.)
Вот простой пример, но возникают все три момента: Вы измеряете температуру тела пациента в градусах Цельсия, или в градусах Фаренгейта, или даже в Кельвинах: сделайте свой выбор. В каком смысле полезно или даже логично настаивать на показе нулевой температуры? В противном случае важная, даже медицинская или физиологически важная информация будет скрыта.
Вот правдивая история из презентации. Исследователь показывал данные о соотношении полов для различных штатов и союзных территорий в Индии. График представлял собой столбчатую диаграмму, все столбцы которой начинались с нуля. Все бары были близки к одинаковой длине, несмотря на значительные различия. Это было правильно, но интересная история состояла в том, что области были разными, несмотря на сходство, а не то, что они были похожи, несмотря на различия. Я предположил, что соотношение между мужчинами и женщинами (1 или 100 женщин / 100 мужчин) было гораздо более естественным референтным уровнем. (Я также был бы открыт для использования некоторого общего уровня, такого как национальное среднее значение, в качестве ориентира.) Даже некоторые статистические люди, которые слышали эту небольшую историю, иногда отвечали: «Нет, бары должны всегда начинаться с нуля». Для меня это не лучше, чем неуместная догма в таком случае.
Упоминание гистограмм указывает, что вид используемого графика также важен. Предположу , что при температуре тела в диапазон по оси от 35 до 40 С выбрано для удобства , как в том числе всех данных, таким образом , чтобы оси «начинается» в 35. Ясно , что все стержни , начиная с 35 будет плохое кодированием данные. Но здесь проблема заключается в неправильном выборе элемента графа, а не в плохо выбранном диапазоне осей.∘ уY ∘ Y
Обычный вид графика, особенно в некоторых биологических и медицинских науках, показывает средние значения или другие сводки толстыми столбцами, начинающимися с нуля, и стандартными ошибками или интервалами, основанными на стандартном отклонении, указывающими неопределенность тонкими столбиками. Такие детонаторные или динамитные заговоры, как их называют те, кто не одобряют, могут быть популярны частично из-за изречения, что ноль всегда должен быть показан. Чистый эффект состоит в том, чтобы подчеркнуть сравнение с нулем, которому часто не хватает интереса или полезности.
Некоторые люди хотели бы показать ноль, но также добавить разрыв шкалы, чтобы показать, что масштаб прерывается. Мода меняется и технология меняется. Несколько десятилетий назад, когда исследователи составляли свои собственные графики или делегировали задачу техническим специалистам, было проще попросить, чтобы это было сделано вручную. Теперь графические программы часто не поддерживают разрывы масштаба, что, я думаю, не потеряно. Даже если они это сделают, это суетливое дополнение, которое может потратить умеренную часть графической области.
Обратите внимание, что никто не настаивает на том же правиле для оси . Почему нет? Если вы показываете климатические или экономические колебания за последнее столетие или около того, было бы странно сказать, что шкала должна начинаться на границе BC / CE или любого другого источника.Икс
Естественно, существует нулевое правило, которое применяется в дополнение к трем упомянутым.
Таким образом, по этому вопросу я полностью согласен с Эдвардом Туфте и не согласен с Дарреллом Хаффом.
РЕДАКТИРОВАТЬ 9 мая 2016 года:
Каир, а. 2016. Истинное искусство: данные, диаграммы и карты для общения. Сан-Франциско, Калифорния: New Riders, с.136.
источник