Являются ли тепловые карты «одним из наименее эффективных типов визуализации данных»?

22

Вопрос: Когда (для каких типов проблем визуализации данных) тепловые карты наиболее эффективны? (В частности, более эффективен, чем все другие возможные методы визуализации?)

Когда тепловые карты наименее эффективны?

Существуют ли какие-либо общие шаблоны или практические правила, которые можно использовать, чтобы решить, является ли тепловая карта вероятным эффективным способом визуализации данных, и когда они могут быть неэффективными?

(В основном я имею в виду тепловые карты для 2 категориальных переменных и 1 непрерывной переменной, но мне также интересно узнать мнения относительно других типов тепловых карт.)

Контекст: я прохожу онлайн-курс по визуализации данных, и сейчас они обсуждают неэффективные и чрезмерно используемые типы графиков. Они уже упоминали динамитные графики и круговые диаграммы, и причины, по которым они неэффективны и почему существуют более эффективные альтернативы, были для меня ясными и убедительными. Кроме того, было легко найти другие источники, подтверждающие данные мнения о динамитных графиках и круговых диаграммах.

Тем не менее, курс также сказал, что «тепловые карты являются одним из наименее эффективных типов визуализации данных». Перефразируя причины, приведенные ниже. Но когда я попытался найти в Google другие места, подтверждающие эту точку зрения, у меня возникли большие трудности, в отличие от поиска мнений об эффективности круговых диаграмм и динамитных диаграмм. Поэтому я хотел бы знать, в какой степени приведена характеристика тепловых карт, приведенная в курсе, и когда факторы против них наименее важны и наиболее важны для данного контекста.

Причины были приведены:

  1. Трудно отобразить цвет в непрерывном масштабе.

    Есть некоторые исключения из этого правила, так что обычно это не прерыватель сделки, но в случае тепловых карт проблема особенно сложна, потому что наше восприятие цвета меняется в зависимости от соседних цветов. Таким образом, тепловые карты не очень подходят для просмотра отдельных результатов, даже в небольших наборах данных. Что приводит к:

  2. Ответ на конкретные вопросы с использованием метода поиска в таблице, как правило, не представляется возможным, поскольку невозможно с достаточной точностью вывести числовое значение, соответствующее данному цвету.

  3. Часто данные не сгруппированы таким образом, чтобы выявить тенденции.

    Без такой кластеризации часто трудно или невозможно сделать какие-либо выводы об общих общих закономерностях.

  4. Тепловые карты часто используются только для передачи «вау-фактора» или просто для того, чтобы выглядеть круто, особенно при использовании многоцветного градиента, но обычно есть лучшие способы передачи данных.

Построение непрерывных данных в общем масштабе всегда является наилучшим вариантом. Если есть временная составляющая, наиболее очевидный выбор - линейный график.

Chill2Macht
источник
15
Критика «тепловых карт» сводится к последней строке (4): что это за «лучшие способы» общения? (Если нет лучших способов, то (1) - (3) вряд ли уместны.) Если цель буквально состоит в передаче данных , то, очевидно, есть лучшие способы: записать числа. Однако цель визуализации редко заключается в передаче данных: вместо этого она заключается в поддержке интерпретации или отправке сообщения. Какие интерпретации имеет в виду ваш источник и что, по его утверждению, является лучшим способом представить эти интерпретации?
whuber
4
@whuber В качестве дополнения к этому - одна очень хорошая вещь о тепловых картах состоит в том, что во многих случаях их легко дополнить, отображая необработанные данные (возможно, округленные) непосредственно на каждой плитке. Даже использование условного форматирования для цвета фона ячеек в электронной таблице является очень эффективной и очень распространенной «тепловой картой», в которой трудно понять, как их можно улучшить.
Серебряная
2
Мой комментарий относится только к критике 1. Правильно, что цвет (оттенок) не соответствует психологически упорядоченному масштабу, хотя физически (длина волны). Однако добавление избыточных измерений, таких как яркость, упрощает их интерпретацию. Вы можете иметь темный цвет выше светлого, но использовать цвета, такие как светло-синий и темно-красный.
Дэвид Лейн
2
Зависит от контекста. Вот отличный пример ценной, полезной информации, полученной из тепловой карты, для которой я не могу придумать другого более удобного или полезного типа визуализации данных.
Джейсон С
5
Цвет излишний (и, по общему признанию, плохо выбран - это просто цветовая карта изображения по умолчанию в R), но вот пример игры Minesweeper, которую я разработал несколько лет назад. Я обнаружил, что тепловая карта сразу же подсвечивается тем, что она раскрывает структуру проблемы, которая становится интуитивно понятной, как только вы ее видите и на мгновение задумываетесь о ней, но которая не сразу очевидна (большинству людей) перед тем, как увидеть сюжет.
кардинал

Ответы:

15

Не существует такого понятия, как «лучший» сюжет для этого или для этого. То, как вы строите свои данные, зависит от сообщения, которое вы хотите передать. Преимущество обычно используемых графиков заключается в том, что пользователи с большей вероятностью смогут их прочитать. Тем не менее, это не значит, что они обязательно лучший выбор.

Что касается тепловых карт, я заказал свой ответ предполагаемыми аргументами против них.

Объявление 1) Если вы не доверяете цвету в качестве канала кодирования, используйте вместо этого яркость со шкалой от темно-серых до светло-серых "цветовых" тонов. Чаще всего вы хотите объединить непрерывные переменные (также см. 5), чтобы вы могли сохранить небольшое количество цветов и упростить их декодирование пользователями. Это не обязательно, хотя. Взгляните на этот пример , в котором непрерывная переменная не является binned.

Объявление 2) Конечно, они не должны использоваться в качестве альтернативы для поиска точных значений. Тепловые карты следует в первую очередь использовать для иллюстрации схем, а не для замены таблиц.

Объявление 3 + 4) Я не понимаю, как это будет связано только с тепловыми картами.

Объявление 5) Тепловые карты в идеале, но не обязательно, используются с дискретными переменными. Для непрерывных переменных тепловые карты можно использовать как своего рода двумерную гистограмму или гистограмму с надлежащим бинингом, а также яркость в качестве канала кодирования.

g3o2
источник
2
Отличный ответ! За исключением того, что я не знаю, что означает "объявление". Latin? Сокращение?
Xan
1
Благодарность! «ad» означает «на» или «относительно», я думаю, что это происходит от латыни.
g3o2
Я никогда не видел, чтобы "реклама" использовалась таким образом (cc, @xan). Из вашего описания, я думаю, я мог бы использовать темп .
gung - Восстановить Монику
1
Также не забудьте гамма-коррекцию своих тепловых карт на основе яркости.
user253751
3
@ Gung Не совсем, ИМО. Он не имеет никаких коннотаций, в отличие от темпа - это просто означает, кроме того, добавление, в отношении, что касается ... Не говоря уже о том, что оно было универсальным на Западе, пришло из латыни и широко использовалось в теологии и научной и политической литературе, в том числе другие вещи. В (почтовом) диалоге обе стороны будут использовать его для ссылки на аргументы каждого из пунктов. Кажется, что он впадает в немилость, так как письменный язык обрезается. Обычная замена - это просто использование «1.1» вместо «Ad 1.1», что может немного смущать и показаться мне немного грубым, ну да ладно.
Луаан
5

Кто-то не может сказать, что Heat Map - наименее эффективный тип визуализации. Я бы скорее сказал, что это зависит от вашего требования. В некоторых случаях тепловые карты очень полезны. Допустим, вы должны сделать отчет о преступности в стране (или в городе). Здесь у вас будет огромный набор данных, который может иметь временные зависимости.

Аналогично, предположим, что вы должны подготовить отчет о потреблении электроэнергии в городах. В этих случаях вы можете легко визуализировать через карту тепла. Это будет иметь больше смысла и будет менее громоздким.

Итак, в двух словах: если у вас много непрерывных данных и вы хотите создать отчет, который может быстро определить ответы, тогда лучше всего использовать тепловую карту.

Маниш Кумар
источник
2
Что касается энергопотребления, зачастую нет лучшего графика, чем тепловая карта: argustech.be/wp-content/uploads/2012/04/heatmap.png Выходные и рабочие часы прыгают прямо на зрителя. Вы можете увидеть базовую нагрузку, вы можете увидеть пики, вы можете увидеть, когда они происходят. Вы можете обнаружить любую странную картину за несколько секунд, например, если какое-либо электрическое устройство всегда включено или запускается слишком рано или слишком поздно.
Эрик
4

Критика 1 в первоначальном вопросе охватывает самый большой недостаток - то, что кому-то, читающему тепловую карту, трудно расшифровать передаваемую количественную информацию. Рассмотрим график рассеяния xy или точечный график, где лежащая в основе величина напрямую связана с расстоянием на графике - очень просто для интерпретации.

В тепловой карте, с другой стороны, человек, читающий диаграмму, может интерпретировать 10% «краснее» или «темнее» к своему собственному удовлетворению. Кроме того, проблема различий в способностях людей различать цвет и оттенок с самого начала. Это подлинные недостатки, но они не всегда смертельны.

Третья критика, напротив, кажется, непреднамеренно идентифицирует случай, когда тепловые карты особенно полезны - когда данные кластеризованы на двухмерной плоскости, так что аналогичные значения в третьем измерении отображаются как пятна определенного оттенка или цвета. Таким образом, хотя тепловые карты неэффективны в одних вещах, они полезны для других, и они должны оставаться в вашей сумке, так же, как игроки в гольф часто носят качающие клинья или тому подобное, несмотря на то, что они бесполезны для вождения или сдачи, а плотники - нет. не обращайте внимания на молотки, потому что они не годятся для резки дерева.

В общем случае визуализацию данных следует рассматривать как итеративное действие, которое займет некоторое время, поскольку вы попробуете ряд визуализаций, которые выявляют важные функции данных, в том числе более чем один вид визуализации, а затем экспериментируйте, чтобы найти лучшие настройки в пределах определенный выбор. Не следует также предполагать, что результатом будет одна визуализация - иногда требуется несколько визуализаций данных, чтобы выделить несколько важных особенностей данных. В этом контексте будут времена, когда для конкретных особенностей конкретных наборов данных тепловая карта будет наиболее эффективной, и связывающие кластеры, как описано, могут быть одним из таких времен. В целом, будут частые случаи, когда одна визуализация не может сделать все, и потребуется более одной.

Роберт де Грааф
источник
3

Как уже упоминалось другими, действительно неправильно говорить, что тепловые карты всегда неэффективны. На самом деле, они довольно эффективны во многих случаях.

Например, если вы хотите визуализировать данные 4D, достаточно просто выполнить первые три измерения во многих программах для построения графиков. Тем не менее, всю концепцию 4D довольно сложно понять вообще. Что такое "4-е" направление / измерение?

Вот где тепловая карта может быть эффективной, потому что она позволит построить первые три измерения на координатной оси, а четвертое можно визуализировать, накладывая тепловую карту на построенную вами плоскость (или линию, но это менее вероятно).

Суть в том, что вам нужен контекст. Что вы ищете в своей визуализации? Кроме того, как коллега-самоучка, я могу сказать вам, что эти онлайн-курсы, как правило, очень тривиальны и бесполезны. Вам гораздо лучше использовать их только тогда, когда вы ищете информацию / помощь по конкретным темам, а не учите целому предмету.

В любом случае, удачи.

Авраам Горовиц
источник
3

По своей природе тепловая карта отображает данные с двумя непрерывными независимыми переменными (или, что не совсем эквивалентно, одной независимой переменной из двумерного векторного пространства) и одной непрерывной зависимой переменной. Для данных такого типа тепловая карта, безусловно, является одним из наиболее эффективных типов визуализации данных. Да, у него есть свои проблемы, но это неизбежно: у вас действительно есть только два измерения для работы, и трехмерное пространство не может быть сопоставлено с этим с сохранением структуры , поэтому вам нужен хак, такой как отображение одного измерения в цвет или рисование контурных линий и т. д.

R2X×Y|X||Y|, которая является конечной для категориальной переменной - другими словами, декартово произведение двух категориальных переменных можно рассматривать как одну категориальную переменную ! И в этом свете вы также можете использовать другие графики, у которых нет проблем с тепловой картой.

Если вы оказались в ситуации, когда полезна тепловая карта для двух категориальных переменных, это указывает на то, что это, вероятно, не действительно категориальные переменные, а скорее квантованные непрерывные переменные.

leftaroundabout
источник
4
Этот ответ интересен, но я думаю, что он дает краткую оценку идее использования тепловых карт с категориальными переменными. Например, можно ранжировать категориальные уровни по их количеству (или некоторой другой соответствующей переменной сортировки), а затем использовать тепловую карту для визуализации совместного распределения или некоторой другой величины, которая изменяется в зависимости от совместных категориальных уровней. Это может быть связано с связками (и их обобщенными понятиями). Такие визуализации, если все сделано правильно, могут выявить реальную структуру данных, которую в противном случае было бы очень трудно обнаружить. (...)
кардинал
(...) И такой подход не зависит от (прямого) представления о вложении категориальных уровней в евклидово пространство.
кардинал
Мне было интересно, если у вас есть какие-либо комментарии по поводу практики использования тепловых карт для данных по экспрессии генов / микрочипов - это похоже на случаи использования тепловых карт для 2 категориальных и одной непрерывной переменной, для которых категориальные переменные не могут быть реально интерпретируется как квантованные непрерывные переменные. Или я предполагаю тепловые карты для матриц корреляции категориальных переменных в целом.
Chill2Macht
3

Тепловые карты хороши для предоставления упрощенного представления нескольких переменных с точки зрения временного ряда - данные могут быть абсолютными изменениями во времени или стандартизированы с использованием Z-баллов или других средств для исследования переменных с различными интервалами измерений или относительными изменениями подгрупп. Это обеспечивает очень визуально заметное представление, что можно определить корреляции или инверсии и заменить множество графиков. Они также могут быть использованы в предварительной обработке для оценки возможного уменьшения размерности, т.е. факторинга или PCA.

Неправильные переменные и другие факторы могут быть скрыты и пропущены при использовании этого подхода для определения корреляций. Те же самые скрытые аспекты действительно имеют место с линейными графиками - однако, учитывая большое количество переменных, - мой опыт показывает, что тепловые карты приносят так много информации, что пользователь не учитывает промежуточные аспекты или другие скрытые факторы.

Это с точки зрения ученого с точки зрения прогрессивного экономиста с 20-летним стажем в области производства данных и задачей по информированию широкой общественности с такими данными.

Пол Таллох
источник
1

Тепловые карты имеют преимущество перед диаграммами рассеяния, когда на диаграмме рассеяния слишком много точек данных для просмотра. Это может быть уменьшено в диаграмме рассеяния с использованием полупрозрачных точек данных, но после определенного порога становится лучше суммировать данные.

В этом посте приведен убедительный пример того, что графики разброса трудно интерпретировать.

Диаграмма рассеяния может только визуально представлять плотность до определенного порога - порога «точек повсюду» ...

Плотность участков, а не точек

Решение состоит в том, чтобы построить плотность точек, а не сами точки. Мы уже знаем этот метод в одном измерении как гистограмму.

В двух измерениях есть несколько способов сделать это. Формы ячеек могут быть получены любым методом равномерного разбиения плоскости, таким как квадраты или шестиугольники. Для каждой плитки подсчитывается количество точек данных внутри плитки. Затем плитке присваивается цвет в соответствии с количеством точек.

Аналогичное утверждение из документации по ggplot2 для карты температур 2d bin :

Это полезная альтернатива geom_point()при наличии перелетов.

В документах geom_point():

Overplotting

Самая большая потенциальная проблема с диаграммой рассеяния - это перплотирование: если у вас есть несколько точек, точки могут быть нанесены друг на друга. Это может сильно исказить внешний вид сюжета. Нет единственного решения этой проблемы, но есть некоторые методы, которые могут помочь. Вы можете добавить дополнительную информацию geom_smooth(), geom_quantile()или geom_density_2d(). Если у вас мало уникальных значений x, geom_boxplot()это также может быть полезно.

В качестве альтернативы, вы можете суммировать количество точек в каждом месте и показать , что в некотором роде, используя geom_count(), geom_hex()или geom_density2d().

Другой метод - сделать точки прозрачными (например geom_point(alpha = 0.05)) или очень маленькими (например geom_point(shape = ".")).

qwr
источник