Вопрос: Когда (для каких типов проблем визуализации данных) тепловые карты наиболее эффективны? (В частности, более эффективен, чем все другие возможные методы визуализации?)
Когда тепловые карты наименее эффективны?
Существуют ли какие-либо общие шаблоны или практические правила, которые можно использовать, чтобы решить, является ли тепловая карта вероятным эффективным способом визуализации данных, и когда они могут быть неэффективными?
(В основном я имею в виду тепловые карты для 2 категориальных переменных и 1 непрерывной переменной, но мне также интересно узнать мнения относительно других типов тепловых карт.)
Контекст: я прохожу онлайн-курс по визуализации данных, и сейчас они обсуждают неэффективные и чрезмерно используемые типы графиков. Они уже упоминали динамитные графики и круговые диаграммы, и причины, по которым они неэффективны и почему существуют более эффективные альтернативы, были для меня ясными и убедительными. Кроме того, было легко найти другие источники, подтверждающие данные мнения о динамитных графиках и круговых диаграммах.
Тем не менее, курс также сказал, что «тепловые карты являются одним из наименее эффективных типов визуализации данных». Перефразируя причины, приведенные ниже. Но когда я попытался найти в Google другие места, подтверждающие эту точку зрения, у меня возникли большие трудности, в отличие от поиска мнений об эффективности круговых диаграмм и динамитных диаграмм. Поэтому я хотел бы знать, в какой степени приведена характеристика тепловых карт, приведенная в курсе, и когда факторы против них наименее важны и наиболее важны для данного контекста.
Причины были приведены:
Трудно отобразить цвет в непрерывном масштабе.
Есть некоторые исключения из этого правила, так что обычно это не прерыватель сделки, но в случае тепловых карт проблема особенно сложна, потому что наше восприятие цвета меняется в зависимости от соседних цветов. Таким образом, тепловые карты не очень подходят для просмотра отдельных результатов, даже в небольших наборах данных. Что приводит к:
Ответ на конкретные вопросы с использованием метода поиска в таблице, как правило, не представляется возможным, поскольку невозможно с достаточной точностью вывести числовое значение, соответствующее данному цвету.
Часто данные не сгруппированы таким образом, чтобы выявить тенденции.
Без такой кластеризации часто трудно или невозможно сделать какие-либо выводы об общих общих закономерностях.
Тепловые карты часто используются только для передачи «вау-фактора» или просто для того, чтобы выглядеть круто, особенно при использовании многоцветного градиента, но обычно есть лучшие способы передачи данных.
Построение непрерывных данных в общем масштабе всегда является наилучшим вариантом. Если есть временная составляющая, наиболее очевидный выбор - линейный график.
источник
Ответы:
Не существует такого понятия, как «лучший» сюжет для этого или для этого. То, как вы строите свои данные, зависит от сообщения, которое вы хотите передать. Преимущество обычно используемых графиков заключается в том, что пользователи с большей вероятностью смогут их прочитать. Тем не менее, это не значит, что они обязательно лучший выбор.
Что касается тепловых карт, я заказал свой ответ предполагаемыми аргументами против них.
Объявление 1) Если вы не доверяете цвету в качестве канала кодирования, используйте вместо этого яркость со шкалой от темно-серых до светло-серых "цветовых" тонов. Чаще всего вы хотите объединить непрерывные переменные (также см. 5), чтобы вы могли сохранить небольшое количество цветов и упростить их декодирование пользователями. Это не обязательно, хотя. Взгляните на этот пример , в котором непрерывная переменная не является binned.
Объявление 2) Конечно, они не должны использоваться в качестве альтернативы для поиска точных значений. Тепловые карты следует в первую очередь использовать для иллюстрации схем, а не для замены таблиц.
Объявление 3 + 4) Я не понимаю, как это будет связано только с тепловыми картами.
Объявление 5) Тепловые карты в идеале, но не обязательно, используются с дискретными переменными. Для непрерывных переменных тепловые карты можно использовать как своего рода двумерную гистограмму или гистограмму с надлежащим бинингом, а также яркость в качестве канала кодирования.
источник
Кто-то не может сказать, что Heat Map - наименее эффективный тип визуализации. Я бы скорее сказал, что это зависит от вашего требования. В некоторых случаях тепловые карты очень полезны. Допустим, вы должны сделать отчет о преступности в стране (или в городе). Здесь у вас будет огромный набор данных, который может иметь временные зависимости.
Аналогично, предположим, что вы должны подготовить отчет о потреблении электроэнергии в городах. В этих случаях вы можете легко визуализировать через карту тепла. Это будет иметь больше смысла и будет менее громоздким.
Итак, в двух словах: если у вас много непрерывных данных и вы хотите создать отчет, который может быстро определить ответы, тогда лучше всего использовать тепловую карту.
источник
Критика 1 в первоначальном вопросе охватывает самый большой недостаток - то, что кому-то, читающему тепловую карту, трудно расшифровать передаваемую количественную информацию. Рассмотрим график рассеяния xy или точечный график, где лежащая в основе величина напрямую связана с расстоянием на графике - очень просто для интерпретации.
В тепловой карте, с другой стороны, человек, читающий диаграмму, может интерпретировать 10% «краснее» или «темнее» к своему собственному удовлетворению. Кроме того, проблема различий в способностях людей различать цвет и оттенок с самого начала. Это подлинные недостатки, но они не всегда смертельны.
Третья критика, напротив, кажется, непреднамеренно идентифицирует случай, когда тепловые карты особенно полезны - когда данные кластеризованы на двухмерной плоскости, так что аналогичные значения в третьем измерении отображаются как пятна определенного оттенка или цвета. Таким образом, хотя тепловые карты неэффективны в одних вещах, они полезны для других, и они должны оставаться в вашей сумке, так же, как игроки в гольф часто носят качающие клинья или тому подобное, несмотря на то, что они бесполезны для вождения или сдачи, а плотники - нет. не обращайте внимания на молотки, потому что они не годятся для резки дерева.
В общем случае визуализацию данных следует рассматривать как итеративное действие, которое займет некоторое время, поскольку вы попробуете ряд визуализаций, которые выявляют важные функции данных, в том числе более чем один вид визуализации, а затем экспериментируйте, чтобы найти лучшие настройки в пределах определенный выбор. Не следует также предполагать, что результатом будет одна визуализация - иногда требуется несколько визуализаций данных, чтобы выделить несколько важных особенностей данных. В этом контексте будут времена, когда для конкретных особенностей конкретных наборов данных тепловая карта будет наиболее эффективной, и связывающие кластеры, как описано, могут быть одним из таких времен. В целом, будут частые случаи, когда одна визуализация не может сделать все, и потребуется более одной.
источник
Как уже упоминалось другими, действительно неправильно говорить, что тепловые карты всегда неэффективны. На самом деле, они довольно эффективны во многих случаях.
Например, если вы хотите визуализировать данные 4D, достаточно просто выполнить первые три измерения во многих программах для построения графиков. Тем не менее, всю концепцию 4D довольно сложно понять вообще. Что такое "4-е" направление / измерение?
Вот где тепловая карта может быть эффективной, потому что она позволит построить первые три измерения на координатной оси, а четвертое можно визуализировать, накладывая тепловую карту на построенную вами плоскость (или линию, но это менее вероятно).
Суть в том, что вам нужен контекст. Что вы ищете в своей визуализации? Кроме того, как коллега-самоучка, я могу сказать вам, что эти онлайн-курсы, как правило, очень тривиальны и бесполезны. Вам гораздо лучше использовать их только тогда, когда вы ищете информацию / помощь по конкретным темам, а не учите целому предмету.
В любом случае, удачи.
источник
По своей природе тепловая карта отображает данные с двумя непрерывными независимыми переменными (или, что не совсем эквивалентно, одной независимой переменной из двумерного векторного пространства) и одной непрерывной зависимой переменной. Для данных такого типа тепловая карта, безусловно, является одним из наиболее эффективных типов визуализации данных. Да, у него есть свои проблемы, но это неизбежно: у вас действительно есть только два измерения для работы, и трехмерное пространство не может быть сопоставлено с этим с сохранением структуры , поэтому вам нужен хак, такой как отображение одного измерения в цвет или рисование контурных линий и т. д.
Если вы оказались в ситуации, когда полезна тепловая карта для двух категориальных переменных, это указывает на то, что это, вероятно, не действительно категориальные переменные, а скорее квантованные непрерывные переменные.
источник
Тепловые карты хороши для предоставления упрощенного представления нескольких переменных с точки зрения временного ряда - данные могут быть абсолютными изменениями во времени или стандартизированы с использованием Z-баллов или других средств для исследования переменных с различными интервалами измерений или относительными изменениями подгрупп. Это обеспечивает очень визуально заметное представление, что можно определить корреляции или инверсии и заменить множество графиков. Они также могут быть использованы в предварительной обработке для оценки возможного уменьшения размерности, т.е. факторинга или PCA.
Неправильные переменные и другие факторы могут быть скрыты и пропущены при использовании этого подхода для определения корреляций. Те же самые скрытые аспекты действительно имеют место с линейными графиками - однако, учитывая большое количество переменных, - мой опыт показывает, что тепловые карты приносят так много информации, что пользователь не учитывает промежуточные аспекты или другие скрытые факторы.
Это с точки зрения ученого с точки зрения прогрессивного экономиста с 20-летним стажем в области производства данных и задачей по информированию широкой общественности с такими данными.
источник
Тепловые карты имеют преимущество перед диаграммами рассеяния, когда на диаграмме рассеяния слишком много точек данных для просмотра. Это может быть уменьшено в диаграмме рассеяния с использованием полупрозрачных точек данных, но после определенного порога становится лучше суммировать данные.
В этом посте приведен убедительный пример того, что графики разброса трудно интерпретировать.
Аналогичное утверждение из документации по ggplot2 для карты температур 2d bin :
В документах
geom_point()
:источник