Как лучше всего визуализировать различия во многих пропорциях в трех группах?

18

Я пытаюсь визуально сравнить, как три разные новостные публикации освещают разные темы (определенные с помощью модели тем LDA). Для этого у меня есть два связанных метода, но я получил много отзывов от коллег, что это не очень интуитивно понятно. Я надеюсь, что у кого-то есть лучшая идея для визуализации этого.

На первом графике я показываю пропорции каждой темы в каждой публикации, например:

Пропорции по всем темам и публикациям

Это довольно просто и интуитивно понятно почти всем, с кем я разговаривал. Тем не менее, трудно увидеть различия между публикациями. Какая газета освещает какую тему больше?

Чтобы добиться этого, я изобразил разницу между публикацией с самой высокой и второй по величине пропорцией тем, окрашенных публикацией с самой высокой. Как это:

Разница между первой и второй высшей темой

Так, например, огромная полоса для футбола - это действительно расстояние между «Аль-Ахрам Инглиш» и «Дейли Ньюс Египет» (№ 2 по освещению футбола), и оно окрашено в красный цвет, потому что «Аль-Ахрам» № 1. Точно так же, испытания являются зелеными, потому что Независимый Египет имеет наибольшую долю, а размер бара - это расстояние между Независимым Египтом и Daily News Egypt (снова №2).

Тот факт, что я должен объяснить, что все в двух параграфах является довольно верным признаком того, что график не проходит тест на самодостаточность. Трудно сказать, что на самом деле происходит, просто глядя на это.

Какие-нибудь общие предложения о том, как визуально выделить доминирующую публикацию для каждой темы более интуитивным способом?

Изменить: Данные для воспроизведения: Здесь dputвывод из R , а также файл CSV .

Редактировать 2: Вот предварительная версия точечного графика с диаметрами точек, пропорциональными пропорции темы в корпусе (именно так темы были изначально отсортированы). Хотя мне все еще нужно немного подправить его, он кажется гораздо более интуитивным, чем то, что я делал раньше. Спасибо всем!

Точечный сюжет

Андрей
источник
1
Я просто добавил некоторые данные (для R и CSV). Я еще не закончил выбирать хорошие цвета (отсюда Рождество / красный / зеленый), хотя я знаю о проблемах с дальтонизмом :)
Andrew
1
Упоминание о «пропорциях» здесь является чем-то вроде красной сельди, поскольку данные не являются действительно пропорциями и, что более важно, ни одно из графических решений до сих пор не зависит от данных, являющихся пропорциями. Это хорошо, потому что решения имеют отношение к широкому диапазону данных, но не вводите их в заблуждение.
Ник Кокс
(+1) Хороший вопрос, включая загружаемый набор данных и быстрое отслеживание!
ЧЛ
Эндрю, по поводу твоего последнего редактирования, я думаю, что было бы лучше с вертикальными линиями сетки. Они создают шаблон проверки, но не увеличивают ценность, если вам не нужно читать точные значения из графика.
Xan
Без вертикальных линий?
Андрей

Ответы:

18

Спасибо за то, что сделали данные доступными, за интересный набор данных и графическую задачу.

Мое главное предложение - точечная диаграмма (Кливленд).

введите описание изображения здесь

Наиболее важные детали, которые я хотел бы подчеркнуть:

  1. Наложение здесь позволяет и облегчает сравнение.

  2. Порядок тем на ваших дисплеях выглядит совершенно произвольно. При отсутствии естественного порядка (например, время, пространство, упорядоченная переменная) я всегда сортировал бы по одной из переменных, чтобы обеспечить структуру. То, что использовать, может зависеть от того, является ли кто-то особенно интересным или важным, решение исследователя. Другая возможность состоит в том, чтобы по какой-то мере упорядочить различия между документами, чтобы темы, получившие одинаковое освещение, были на одном конце, а темы, получившие различное освещение на другом конце.

  3. Открытые маркеры или точечные символы позволяют разрешать перекрытие или идентичность лучше, чем закрытые или сплошные маркеры или символы, которые в худшем случае затемняют или закрывают друг друга. (Альтернатива, которая вполне может сработать, это буквы A, D и I для трех газет.)

Ясно, что есть много возможностей для улучшения моего дизайна. Например, надпись слишком большая и / или слишком тяжелая? С другой стороны, заголовки должны быть легко читаемыми, иначе график является ошибкой.

Несколько меньших, пикантных точек:

а. Красный и зеленый на графике - это сочетание цветов, которого следует избегать. Когда используются разные маркеры, выбор цвета становится менее важным.

б. Горизонтальные отметки на вашем графике отвлекают. Напротив, мне нужны линии сетки, но я стараюсь сделать их ненавязчивыми, используя тонкие, светлые линии.

×

Кливлендские точечные диаграммы больше всего обязаны

Cleveland, WS 1984. Графические методы представления данных: полномасштабные разрывы, точечные диаграммы и многоуровневая регистрация. Американский статистик 38: 270-80.

Cleveland, WS 1985. Элементы графического отображения данных. Монтерей, Калифорния: Уодсворт.

Cleveland, WS 1994. Элементы графического отображения данных. Саммит, Нью-Джерси: Хобарт Пресс.

Один предшественник (более известный статистически для совершенно другой работы !!!) был

Пирсон, Е.С. 1956. Некоторые аспекты геометрии статистики: использование визуального представления в понимании теории и применение математической статистики. Журнал Королевского статистического общества A 119: 125-146.

Для интересующихся график был подготовлен в Stata после прочтения в .csv с кодом

graph dot (asis) prop , over(pub) over(label, sort(1)) asyvars 
marker(1, ms(Oh)) marker(2, ms(+)) marker(3, ms(Th)) linetype(line)   
lines(lc(gs12) lw(vthin)) scheme(s1color) 
Ник Кокс
источник
Это потрясающе - спасибо! К сожалению, проценты ничего не суммируют, потому что значения являются стандартизированными средними значениями из большого массива документов (т.е. каждый документ в каждой публикации состоит из некоторой комбинации из 20 тем, обнаруженных LDA - это показывает нормализованные средние значения ... отсюда маленькие цифры)
Андрей
Также темы упорядочены по их пропорции в корпусе. Управление Египтом является наиболее часто встречающейся темой, а разное - самой редкой темой. Но использование этого порядка делает точки / символы немного сложнее для визуального наблюдения.
Андрей
Это круто! Благодарность! Я обновил исходный пост, чтобы отразить ваши предложения и добавить пропорции корпуса.
Андрей
(+6) Хороший ответ! И всегда приятно иметь ссылки и воспроизводимый код.
ЧЛ
@chl Большое спасибо за благодарные комментарии и дополнительную репутацию.
Ник Кокс
14

Точечный сюжет от Ника Кокса, вероятно, лучше всего подходит для полной картины. Если вы действительно хотите подчеркнуть отношение первого к второму, вот модификация вашего графика, которая смещает разностную полосу по длине второй полосы.

введите описание изображения здесь

А для другого большого изображения вы можете попробовать что-то вроде диаграммы уклона или графика параллельных координат. Строки могут быть слишком переполнены, но это может сработать, если вы хотите выделить подмножество тем.

введите описание изображения здесь

Кроме того, вы можете попробовать helpmeviz.com, который ориентирован на очень конкретные вопросы, такие как эти.

Xan
источник
Интересный! Минутная точка: заголовок оси или метка «пропорция» не соответствуют единицам%.
Ник Кокс
Ох, это действительно интересно. Я собираюсь поиграть с этим, чтобы увидеть, может ли он дополнить точечный график.
Андрей
2

Моим первым побуждением было предложить заговор Мозаики ; он отображает каждую подкатегорию в виде прямоугольника, где одно измерение представляет общее количество для основной категории, а другое измерение представляет пропорциональную долю подкатегории. Есть пакет R, чтобы нарисовать их , но это также довольно просто сделать с графическими инструментами более низкого уровня.

Однако мозаичные графики (например, гистограммы, основанные на процентах) работают лучше всего, если в измерении есть только 2 или 3 категории, в которых вы хотите сравнить пропорции. Таким образом, они будут работать хорошо, если вы захотите сравнить различия между темами в пропорции статей, которые были в каждой из трех газет , но не так сильно для вашего предполагаемого использования, сравнивая различия между тремя газетами в пропорции освещения для каждой темы . Тонкое, но важное различие!

Для того, что вы хотите подчеркнуть, я думаю, что самый эффективный график - один из самых простых - сгруппированный столбчатый график. Больше людей понимают гистограммы, чем точечные диаграммы; с первого взгляда видно, что вы сравниваете величины разного размера, а значения, которые вы хотите сравнить, расположены рядом друг с другом.

Однако, если вы действительно хотите подчеркнуть различия в пропорциях, вы можете создать собственную сгруппированную гистограмму, измененную так, чтобы позиционировать каждую группу так, чтобы медианное значение для каждой категории было выровнено по оси вместо нулевых значений:

                  Difference in proportion of coverage
                     per Newspaper,
                     relative to category median 
                     (narrow bars)
    ____-0.1%____0_____0.1%____0.2%_____
                 |
        |********|*****
A       |~~~~~~~~|
        |####    |
                 |
            |****|**********
B           |~~  |
            |####|
                 |
         |*****  |
C        |~~~~~~~|~~~~~
         |#######|
                 |
     |***        |
D    |~~~~~~~~~~~|
     |###########|##
                 |
0.2%_____0.1%____0_____
Median proportion of coverage 
   per category, all papers
   (large bars)

Обратите внимание, что столбцы в каждой группе все еще выровнены для простого сравнения размера, и что базовая линия каждой группы теперь расположена слева от оси в соответствии со срединным значением этой группы, в то время как столбцы, которые проецируются на справа от оси, эквивалентны на ваш второй столбчатый график, показывающий разницу между двумя верхними категориями.

Независимо от того, используете ли вы стандартную сгруппированную гистограмму или график со смещением, как указано выше, вы все равно можете взять идею из мозаичных графиков и сделать ширину каждого столбца пропорциональной общему количеству статей для этой газеты (таким образом, размер планка пропорциональна количеству статей в этой газете в этой категории).

Поскольку ваша тестовая статистика является свойством каждого сравнения , а не отдельных значений, я не думаю, что полезно масштабировать каждую точку данных в соответствии со значимостью. Вместо этого рядом с каждой группировкой должен быть значок, представляющий значимость. Для академического издания, стандарт */ **/ ***имеет преимущество фамильярности, но вы могли бы получить творческим , если вы хотите , чтобы показать полный континуум статистики.

AmeliaBR
источник
Основная идея здесь состоит в том, чтобы сгруппировать столбцы по вертикали. Это широко используемый дизайн, но он предполагает 60 столбцов по вертикали, а не 20 в оригинале плаката. Хотя вы можете четко настроить ширину полосы, я думаю, вам понадобится больше места, чтобы сделать это хорошо в этом случае, особенно если вы хотите добавить пространство между группами.
Ник Кокс
@NickCox Это недостаток по сравнению с более компактной исходной диаграммой, хотя вы можете повернуть весь график на 90 градусов, если ландшафтно-ориентированная фигура соответствует вашему общему макету.
AmeliaBR
Вы могли бы, но 60 баров жестко слева направо, и 20 ярлыков, таких как «Братья-мусульмане и политика», должны были бы оставаться читаемыми ...
Ник Кокс
Возможно, вам удастся заставить его работать, располагая столбики в группе друг над другом, а не бок о бок. Трудно сказать, не видя макет (и мое искусство ASCII не очень хорошо передает внешний вид). Это будет менее интуитивно понятно, так как это не такая знакомая структура, и может привести к путанице, если две полосы примерно одинаковой высоты. Но если в качестве альтернативы используются полосы шириной в один пиксель ...
AmeliaBR
Итак, вы подходите к предложению в моем ответе о точечной диаграмме.
Ник Кокс
1

Вы пробовали пузырьковую диаграмму? https://code.google.com/apis/ajax/playground/?type=visualization#bubble_chart

Отдельные темы могут быть кружками, и каждый кружок может быть круговой диаграммой процентного содержания, которое каждая новостная лента освещает. Размер круга может указывать на относительный охват темы. например, если о масле написано больше статей, чем о культуре, тогда масляный круг имеет больший диаметр.

Rocinante
источник
[Икс,Y]координаты будут тогда?
Ник Стаунер
1
@NickStauner Я не видел отредактированный вопрос с набором данных, когда я первоначально ответил на это. Координаты не будут иметь большого значения, кроме количества публикаций. Круги могут быть сгруппированы по темам или по размеру диаметра. Я не знаю, почему проценты использовались в первую очередь, так как цифры очень малы.
Роцинанте