Я создаю график, показывающий тенденции смертности (на 1000 чел.) В разных странах, и история должна исходить из того, что Германия (голубая линия) - единственная, чья тенденция увеличивается после 1932 года. моя первая (базовая) попытка
По моему мнению, этот график уже показывает то, что мы хотим сказать, но он не очень интуитивен. Есть ли у вас какие-либо предложения, чтобы прояснить это различие между тенденциями? Я думал о графике темпов роста, но я пытался, и это не так лучше.
Данные следующие
year de fr be nl den ch aut cz pl
1927 10.9 16.5 13 10.2 11.6 12.4 15 16 17.3
1928 11.2 16.4 12.8 9.6 11 12 14.5 15.1 16.4
1929 11.4 17.9 14.4 10.7 11.2 12.5 14.6 15.5 16.7
1930 10.4 15.6 12.8 9.1 10.8 11.6 13.5 14.2 15.6
1931 10.4 16.2 12.7 9.6 11.4 12.1 14 14.4 15.5
1932 10.2 15.8 12.7 9 11 12.2 13.9 14.1 15
1933 10.8 15.8 12.7 8.8 10.6 11.4 13.2 13.7 14.2
1934 10.6 15.1 11.7 8.4 10.4 11.3 12.7 13.2 14.4
1935 11.4 15.7 12.3 8.7 11.1 12.1 13.7 13.5 14
1936 11.7 15.3 12.2 8.7 11 11.4 13.2 13.3 14.2
1937 11.5 15 12.5 8.8 10.8 11.3 13.3 13.3 14
data-visualization
PhDing
источник
источник
Ответы:
Иногда меньше значит больше. С меньшим количеством деталей о межгодовых изменениях и страновых различиях вы можете предоставить больше информации о тенденциях. Поскольку другие страны движутся в основном вместе, вы можете обойтись без отдельных цветов.
При использовании сглаживателя вы требуете, чтобы читатель поверил, что вы не сгладили ни один интересный вариант.
Обновление после получения пары запросов на код :
Я сделал это в интерактивном построителе графиков JMP . Сценарий JMP:
));
источник
Здесь есть хорошие ответы. Позвольте мне поверить вам на слово, что вы хотите показать, что тренд для Германии отличается от остальных. Уровни и изменения - это обычное различие в экономике. Ваши данные находятся в уровнях , но ваш вопрос сформулирован как поиск изменений . Способ сделать это состоит в том, чтобы установить опорный уровень (здесь 1932) как . Оттуда каждый последующий год является частью предыдущего. (Обычно журналы делают, чтобы изменения были более стабильными и симметричными. Это несколько меняет значение точных чисел, если вы действительно хотите, чтобы кто-то получил это из сюжета, но обычно для такого рода вещей люди хотят быть возможность увидеть шаблон.) Затем вы получаете промежуточную сумму для каждой серии и умножаете ее на100 1001 100 условно. Это то, что вы замышляете. Ваш случай немного менее распространен в том смысле, что ваша контрольная точка находится в середине вашей серии, поэтому я выполнил это в обоих направлениях с 1932 года. Ниже приведен простой пример, закодированный в R (будет много способов сделать код и сюжет приятнее, но это должно показать идею прямолинейно). Я сделал линию для Германии более густой, чтобы выделить ее в легенде, и добавил контрольную линию на . Легко видеть, что Германия выделяется на фоне остальных. Вы также можете видеть, что во всех других странах в 1937 году показатели ниже, чем в 1932 году, и что их ежегодные изменения колеблются гораздо меньше в последующие годы после 1932 года, чем в последующие годы. 100
Для сравнения ниже приведен соответствующий график данных по уровням. Тем не менее, я попытался сделать так, чтобы после 1932 года одна только Германия поднялась двумя путями: в 1932 году я поставил заметную точку на каждой серии и нарисовал слабую серую линию на графике на заднем плане на этих уровнях.
источник
В других ответах есть много хороших идей, но они не исчерпывают возможных решений. Первый график в этом ответе предполагает, что различные уровни смертности могут обсуждаться и объясняться отдельно. Позволяя каждой серии заполнять большую часть доступного пространства, она фокусирует внимание читателей на закономерностях относительных изменений.
Алфавитный порядок по странам, как правило, по умолчанию, и здесь не настаивают. К счастью и к счастью, Германия как де находится в центре этого дисплея 3х3. Простой рассказ - Смотри! Образец Германии является исключительным с подъемом с 1932 года - это стало возможным и правдоподобным.
К счастью, но, к счастью, 9 стран достаточно, чтобы оправдать попытки использования отдельных панелей, но не слишком много, чтобы сделать этот дизайн неосуществимым (скажем, 30 и, конечно, 300 панелей, может быть (будет) слишком много панелей для сканирования, каждая из которых слишком мала, чтобы Скрутинизе).
Очевидно, здесь достаточно места для более полных названий стран. (В некоторых других ответах легенды занимают большую часть доступного пространства, оставаясь при этом немного загадочным. На практике люди, интересующиеся такими данными, могут легко расшифровать аббревиатуры страны, но то, насколько необходима легенда, часто бывает неприятная проблема в графическом дизайне.)
Код Stata для записи:
РЕДАКТИРОВАТЬ:
Одним из простых улучшений этого графика, предложенных Тимом Моррисом, является выделение года, в котором произошло максимальное:
РЕДАКТИРОВАТЬ 2 (исправлено, чтобы показать более простой код):
Альтернативно, этот следующий дизайн показывает каждую серию отдельно, но каждый раз с другой серией в качестве фона. Общая идея обсуждается в этой связанной теме .
Здесь есть как потеря, так и выгода. В то время как каждую серию легче увидеть в контексте других, пространство теряется при повторении.
Код Stata для записи:
(Код
input
,reshape
,rename
как указано выше , в этом ответе)fabplot
следует понимать , какf
Ront илиf
Цвет текстаa
йb
ackdrop илиb
ackground сюжета, а не какой - то отголосок 1960 - е годы сленга для «сказочные».источник
year
как заголовок оси x (кому это нужно?). Я добавлю, что для пользователя Stata естественная структура данных будет такой, которая не обязывает arename
иreshape
. но имеет отдельные панели (здесь страны) в качестве отдельных блоков наблюдений.Ваш график является разумным, но он потребует некоторого уточнения, включая заголовок, метки оси и полные метки страны. Если ваша цель состоит в том, чтобы подчеркнуть тот факт, что Германия была единственной страной с повышением уровня смертности за период наблюдения, то простым способом сделать это было бы выделить эту линию на графике, либо с помощью более толстой линии, другой тип линии или альфа-прозрачность. Вы также можете дополнить свой график временных рядов гистограммой, показывающей изменение уровня смертности во времени, так что сложность линий временных рядов сводится к одной мере изменения.
Вот как вы можете создать эти графики, используя
ggplot
вR
:Это приводит к следующим участкам:
Примечание: мне известно, что ОП намеревался осветить изменение уровня смертности с 1932 года, когда тенденция в Германии начала расти. Это кажется мне немного похожим на сбор вишни, и я нахожу сомнительным, когда выбираются временные интервалы для получения определенного тренда. По этой причине я рассмотрел интервал во всем диапазоне данных, который отличается от сравнения с ОП.
источник
Хотя заявленная цель состоит в том, чтобы отображать изменения, очевидно, вы также хотите показывать годовые временные ряды по странам. Это предполагает не полностью переделывать графику, а просто изменить ее.
Поскольку изменение касается того, что происходит из года в год, вы можете рассмотреть возможность представления изменений с помощью графических символов, охватывающих последовательные годы: сегменты линий, соединяющие точки данных на графике.
Так как цвет очень полезен для различения стран и, в остальном, не так хорош для указания количественных переменных, это оставляет нам по существу только две другие характеристики, которые можно варьировать для обозначения изменений: стиль и толщина сегментов. Поскольку ваш тезис касается положительных изменений, вам нужно сделать сегменты линий для увеличения более заметными: их стили должны быть более непрерывными и они должны быть более толстыми.
Наконец, ваш тезис касается данных после 1932 года. Мы хотим подчеркнуть эти элементы графики относительно других. Это может быть сделано путем насыщения цвета.
Это решение сразу предоставляет идеи, которые не были очевидны в оригинале:
Ни в одной стране не наблюдалось ежегодного роста смертности за все годы после 1932 года. Любая такая страна выглядела бы как непрерывная сплошная линия, но такой линии нет.
Большая часть изменений должна объясняться факторами, общими для всех стран. Это проявляется в сходстве стиля и толщины линий в вертикальных столбцах. Например, в период 1934-35 годов уровень смертности увеличился почти во всех странах, а в 1933-34 годах он снизился почти во всех странах.
В Германии было необычно наблюдаться значительное увеличение смертности в 1932-33 гг., А также небольшое увеличение в 1935-36 гг.
Они предполагают проведение тщательного двустороннего исследования изменения уровня смертности в зависимости от страны, возможно, по среднему польскому языку, чтобы глубже проникнуть в относительные показатели европейских стран за этот период.
Если вы хотите подчеркнуть только разницу между 1937 и 1932 годами, аналогичный метод можно использовать для обозначения частей путей между этими датами. Германия будет выделяться
источник
Slopegraphs
Одним из способов представления ваших данных является использование наклонной диаграммы, которая особенно полезна для сравнения изменений или градиентов (некоторые ссылки: 1 2 )
Ниже
Слева приведен пример склона, который показывает, как это выглядит для вашего случая.
В центре более сложный склон, который также показывает 1932 год
Справа - вариация наклона, больше разновидность спарклайнов, где показаны все данные (т.е. без прямых линий).
Я не уверен, какой из них лучше. Третий / правый вариант дает более четкое представление об изменениях из года в год (и, например, становится все более очевидным, что Данмарк против Германии не выглядит таким уж разным, и он год от года растет и падает), но он может также отвлекает (особенно пик 1929 года). То, какой из них лучше, зависит от того, что вы хотите передать с помощью графика, и от того, сколько деталей требуется для вашей истории (например, поворот к 1932 году с другим правительством, что более ясно во втором / среднем варианте).
Вариация наклонного графика справа очень похожа на график Ксана. Однако, помимо стилистических различий, есть еще одно важное отличие. Ширина и высота рисунка выбираются таким образом, чтобы угол кривых был близок к 45 градусам. Таким образом, различия более заметны (я считаю, что лучший пример - пример солнечного пятна Эдварда Туфте )
Больше контекста
Если вы хотите добавить больше сложности, чем простой уклон, то я считаю, что на самом деле лучше показывать больше данных вне диапазона 1927-1937 гг., Чем внутри диапазона. (снова пример Tufte со страниц 74-75 в «Визуальном отображении количественной информации», вы можете получить к нему через эту страницу на доске объявлений на его веб-сайте)
В приведенном ниже примере данные показывают , за годы 1900-2000 ( за исключением Польши, данные которого немного трудно) извлекается из википедии (например этой страницы для Чехии ) , а также Швейцарии и Нидерландах их национальные бюро статистики ( BFS и СтатЛайн ).
(Данные немного отличаются от ваших, но такие же, как, например, статья Йорг Батен и Андреа Вагнер «Автаркия, дезинтеграция рынка и здоровье: кризис смертности и питания в нацистской Германии, 1933–1937 гг.»). читать, поскольку они предоставляют гораздо больше данных, чем просто приблизительные показатели смертности, хотя они также ограничиваются небольшим периодом. Особенно интересно то, что рост уровня смертности, с 1932 по 1937 г., в основном существовал среди городов в полосе от Франкфурта до Бремена и Гамбург)
Я считаю, что этот график важен, потому что он показывает, что Германия сильно упала до роста после 1932 года. Сильнее, чем другие страны. Таким образом, вы можете иметь негативные и позитивные интерпретации. Смертность в Германии росла больше, чем в других странах в период с 1932 по 1937 год, но было ли это (1) ростом от низкого пика или (2) ростом к высокому пику? Интересным аспектом в этом отношении является то, что уровень 10,8 в 1932 году является очень низким уровнем для Германии (на данный момент только Нидерланды имели более низкий уровень смертности). Это не только самый низкий уровень за годы до 1937 года, но также и до 1995 года, прежде чем этот уровень 10,8 снова будет достигнут.
Еще один момент, связанный со здоровьем (если это ваш контекст), возможно, было бы лучше сравнить ожидаемую продолжительность жизни, демографический состав населения влияет на уровень смертности, независимо от изменений в ситуации со здоровьем.
Чуть-чуть дополнительный контекст
Приведенный выше график показывает совокупность, но может быть излишним для большинства целей (за исключением этого поста, где я хотел показать всю историю, и это больше для исследовательских целей). График ниже является альтернативой, которая, я считаю, все еще приличная.
источник
Зависит от аудитории, но я бы упростил вещи:
Затем изложите это в заголовке, например
(Кстати, что такое ch против cz, то есть, какую страну мне не хватает выше?)
Чтобы быть точным, вам, конечно, нужно взвесить
death rate
оценку численности населения при «объединении» этого для «Других», но я уверен, что эта информация вам легко доступна.Обновление 9/9/18: Это, конечно, «игрушечный» набросок, который не был получен из данных; Идея состоит в том, чтобы предоставить черновой вариант формы, которую должен принять график.
Чтобы ответить на комментарий whuber: значения для «Других» могут быть сгенерированы как среднее значение, взвешенное по населению, например, с указывающим значение для в год, и как стран в «Других»:Oy O i=1...8 8×
или лучше, если у вас есть информация о населении. за каждый год:
В зависимости от читателей (например, эпидемиологи против историков) к последнему может быть добавлено стандартное отклонение или стандартная ошибка, хотя я думаю, что это скорее испортит простой вид сюжета.
источник
ch
это Швейцария. (И кстати, это была не Чешская Республика еще в 30-х годах.) - Что мне не нравится в вашем подходе, так это то, что не ясно, что тенденция к снижению в других странах одинакова. Может показаться, что есть просто случайные колебания, которые в среднем оказываются отрицательными в других странах, но оказываются положительными в Германии.Если вы хотите выделить изменения, то, возможно, рассчитайте это и отобразите это. Использование тепловой карты для отображения изменений может быть полезным, так как она позволяет проводить сравнения без проблем, связанных с избыточным графиком, и позволяет избежать проблем интерполяции, которые могут возникнуть из линейных графиков.
Используя ваши данные как
d
в R:Обратите внимание, что данные теперь изменились по сравнению с предыдущим годом. Вы можете видеть, что в Германии после 1932 года наблюдается группа блюза (увеличение смертности), которого нет в других странах. Вы также можете видеть, что в период с 1934 по 1935 год во всех странах, за исключением Польши, наблюдался рост смертности, но в Германии наблюдается тенденция к росту в 1932-1933 и 1935-1936 годах (а также в 1927-1928 годах).
Одна интересная особенность заключается в том, что цвета слева более интенсивны, чем справа. Это означает, что величина изменений была выше в начале периода и более приглушена к концу.
Я бы порекомендовал соединить это с линейным графиком, показывающим уровни тоже.
источник
Здесь я показываю вам разницу логарифма отношения смерти на 1000 жителей по сравнению с предыдущим годом (поэтому 1927 не показан). Германия показана красным цветом, в то время как среднее значение по другим странам показано жирной черной линией.
Германия увеличила соотношение в 5 из 10 лет. После 1932 г. он превышал средний показатель по другим странам (и в основном положительный) до 1937 г.
Хотя почему логарифм? Причина проста: изменение от 2 до 1 более радикально, чем изменение от 1000 до 999 :)
Код:
источник
Еще одна версия: коэффициенты (средняя смертность с 1927 по текущий год) / (смертность 1927)
Сделано с кодом Mathematica
(Пики в 1929 году, по-видимому, связаны с пандемией гриппа, которая произошла в то время)
источник