Я пытаюсь визуально сравнить, как три разные новостные публикации освещают разные темы (определенные с помощью модели тем LDA). Для этого у меня есть два связанных метода, но я получил много отзывов от коллег, что это не очень интуитивно понятно. Я надеюсь, что у кого-то есть лучшая идея для визуализации этого.
На первом графике я показываю пропорции каждой темы в каждой публикации, например:
Это довольно просто и интуитивно понятно почти всем, с кем я разговаривал. Тем не менее, трудно увидеть различия между публикациями. Какая газета освещает какую тему больше?
Чтобы добиться этого, я изобразил разницу между публикацией с самой высокой и второй по величине пропорцией тем, окрашенных публикацией с самой высокой. Как это:
Так, например, огромная полоса для футбола - это действительно расстояние между «Аль-Ахрам Инглиш» и «Дейли Ньюс Египет» (№ 2 по освещению футбола), и оно окрашено в красный цвет, потому что «Аль-Ахрам» № 1. Точно так же, испытания являются зелеными, потому что Независимый Египет имеет наибольшую долю, а размер бара - это расстояние между Независимым Египтом и Daily News Egypt (снова №2).
Тот факт, что я должен объяснить, что все в двух параграфах является довольно верным признаком того, что график не проходит тест на самодостаточность. Трудно сказать, что на самом деле происходит, просто глядя на это.
Какие-нибудь общие предложения о том, как визуально выделить доминирующую публикацию для каждой темы более интуитивным способом?
Изменить: Данные для воспроизведения: Здесь dput
вывод из R , а также файл CSV .
Редактировать 2: Вот предварительная версия точечного графика с диаметрами точек, пропорциональными пропорции темы в корпусе (именно так темы были изначально отсортированы). Хотя мне все еще нужно немного подправить его, он кажется гораздо более интуитивным, чем то, что я делал раньше. Спасибо всем!
Ответы:
Спасибо за то, что сделали данные доступными, за интересный набор данных и графическую задачу.
Мое главное предложение - точечная диаграмма (Кливленд).
Наиболее важные детали, которые я хотел бы подчеркнуть:
Наложение здесь позволяет и облегчает сравнение.
Порядок тем на ваших дисплеях выглядит совершенно произвольно. При отсутствии естественного порядка (например, время, пространство, упорядоченная переменная) я всегда сортировал бы по одной из переменных, чтобы обеспечить структуру. То, что использовать, может зависеть от того, является ли кто-то особенно интересным или важным, решение исследователя. Другая возможность состоит в том, чтобы по какой-то мере упорядочить различия между документами, чтобы темы, получившие одинаковое освещение, были на одном конце, а темы, получившие различное освещение на другом конце.
Открытые маркеры или точечные символы позволяют разрешать перекрытие или идентичность лучше, чем закрытые или сплошные маркеры или символы, которые в худшем случае затемняют или закрывают друг друга. (Альтернатива, которая вполне может сработать, это буквы A, D и I для трех газет.)
Ясно, что есть много возможностей для улучшения моего дизайна. Например, надпись слишком большая и / или слишком тяжелая? С другой стороны, заголовки должны быть легко читаемыми, иначе график является ошибкой.
Несколько меньших, пикантных точек:
а. Красный и зеленый на графике - это сочетание цветов, которого следует избегать. Когда используются разные маркеры, выбор цвета становится менее важным.
б. Горизонтальные отметки на вашем графике отвлекают. Напротив, мне нужны линии сетки, но я стараюсь сделать их ненавязчивыми, используя тонкие, светлые линии.
Кливлендские точечные диаграммы больше всего обязаны
Cleveland, WS 1984. Графические методы представления данных: полномасштабные разрывы, точечные диаграммы и многоуровневая регистрация. Американский статистик 38: 270-80.
Cleveland, WS 1985. Элементы графического отображения данных. Монтерей, Калифорния: Уодсворт.
Cleveland, WS 1994. Элементы графического отображения данных. Саммит, Нью-Джерси: Хобарт Пресс.
Один предшественник (более известный статистически для совершенно другой работы !!!) был
Пирсон, Е.С. 1956. Некоторые аспекты геометрии статистики: использование визуального представления в понимании теории и применение математической статистики. Журнал Королевского статистического общества A 119: 125-146.
Для интересующихся график был подготовлен в Stata после прочтения в .csv с кодом
источник
Точечный сюжет от Ника Кокса, вероятно, лучше всего подходит для полной картины. Если вы действительно хотите подчеркнуть отношение первого к второму, вот модификация вашего графика, которая смещает разностную полосу по длине второй полосы.
А для другого большого изображения вы можете попробовать что-то вроде диаграммы уклона или графика параллельных координат. Строки могут быть слишком переполнены, но это может сработать, если вы хотите выделить подмножество тем.
Кроме того, вы можете попробовать helpmeviz.com, который ориентирован на очень конкретные вопросы, такие как эти.
источник
Моим первым побуждением было предложить заговор Мозаики ; он отображает каждую подкатегорию в виде прямоугольника, где одно измерение представляет общее количество для основной категории, а другое измерение представляет пропорциональную долю подкатегории. Есть пакет R, чтобы нарисовать их , но это также довольно просто сделать с графическими инструментами более низкого уровня.
Однако мозаичные графики (например, гистограммы, основанные на процентах) работают лучше всего, если в измерении есть только 2 или 3 категории, в которых вы хотите сравнить пропорции. Таким образом, они будут работать хорошо, если вы захотите сравнить различия между темами в пропорции статей, которые были в каждой из трех газет , но не так сильно для вашего предполагаемого использования, сравнивая различия между тремя газетами в пропорции освещения для каждой темы . Тонкое, но важное различие!
Для того, что вы хотите подчеркнуть, я думаю, что самый эффективный график - один из самых простых - сгруппированный столбчатый график. Больше людей понимают гистограммы, чем точечные диаграммы; с первого взгляда видно, что вы сравниваете величины разного размера, а значения, которые вы хотите сравнить, расположены рядом друг с другом.
Однако, если вы действительно хотите подчеркнуть различия в пропорциях, вы можете создать собственную сгруппированную гистограмму, измененную так, чтобы позиционировать каждую группу так, чтобы медианное значение для каждой категории было выровнено по оси вместо нулевых значений:
Обратите внимание, что столбцы в каждой группе все еще выровнены для простого сравнения размера, и что базовая линия каждой группы теперь расположена слева от оси в соответствии со срединным значением этой группы, в то время как столбцы, которые проецируются на справа от оси, эквивалентны на ваш второй столбчатый график, показывающий разницу между двумя верхними категориями.
Независимо от того, используете ли вы стандартную сгруппированную гистограмму или график со смещением, как указано выше, вы все равно можете взять идею из мозаичных графиков и сделать ширину каждого столбца пропорциональной общему количеству статей для этой газеты (таким образом, размер планка пропорциональна количеству статей в этой газете в этой категории).
Поскольку ваша тестовая статистика является свойством каждого сравнения , а не отдельных значений, я не думаю, что полезно масштабировать каждую точку данных в соответствии со значимостью. Вместо этого рядом с каждой группировкой должен быть значок, представляющий значимость. Для академического издания, стандарт
*
/**
/***
имеет преимущество фамильярности, но вы могли бы получить творческим , если вы хотите , чтобы показать полный континуум статистики.источник
Вы пробовали пузырьковую диаграмму? https://code.google.com/apis/ajax/playground/?type=visualization#bubble_chart
Отдельные темы могут быть кружками, и каждый кружок может быть круговой диаграммой процентного содержания, которое каждая новостная лента освещает. Размер круга может указывать на относительный охват темы. например, если о масле написано больше статей, чем о культуре, тогда масляный круг имеет больший диаметр.
источник