Когда подходят логарифмические шкалы?

57

Я читал, что использование логарифмических масштабов при построении графиков / графиков целесообразно в определенных обстоятельствах, например, по оси Y в диаграмме временных рядов. Тем не менее, я не смог найти однозначного объяснения, почему это так, или когда это было бы уместно. Пожалуйста, имейте в виду, что я не статистик, поэтому я могу вообще упустить момент, и если это так, я был бы признателен за направление к исправительным ресурсам.

DAV
источник
10
Это не формальный ответ, но - когда переменная охватывает несколько порядков величины, часто проще на глаз (и более информативно) визуализировать ее в логарифмическом масштабе.
Макрос
Макро - это имеет смысл (особенно когда у вас есть аудитория, которая может это понять!)
Дав
1
Вы можете найти эту тесно связанную тему использования, пока ждете конкретных ответов: stats.stackexchange.com/questions/298 . С точки зрения графика, вы можете плодотворно интерпретировать «зависимую переменную» как «ось у». Затем взгляните на многие тесно связанные вопросы, которые появились здесь.
whuber
3
Кроме того, к вашему сведению, Наоми Роббинс имеет очень простую статью на эту тему, которая также должна представлять интерес. Когда я должен использовать логарифмические шкалы в своих диаграммах и графиках? ,
Энди В.
Whuber, спасибо за указание на дополнительные ссылки. Я видел некоторые из них, но не все, и сейчас я пробираюсь через них.
Дав

Ответы:

51

Это очень интересный вопрос, о котором мало кто задумывается. Существует несколько разных способов, которые могут подходить для масштаба журнала. Первое и наиболее известное упомянутое Макро в его комментарии: логарифмические шкалы позволяют отображать большой диапазон без сжатия небольших значений в нижней части графика.

Другая причина предпочтения масштабирования журналов заключается в обстоятельствах, когда данные более естественно выражаются геометрически. Например, когда данные представляют концентрацию биологического медиатора. Концентрации не могут быть отрицательными, а изменчивость почти всегда масштабируется со средним значением (т. Е. Существует гетероскедастическая дисперсия). Используя логарифмическую шкалу или, что эквивалентно, используя логарифмическую концентрацию в качестве первичной, мера «фиксирует» неравномерную изменчивость и дает шкалу, которая не ограничена на обоих концах. Концентрации, вероятно, распределены по логарифмически нормальному закону, поэтому логарифмическое масштабирование дает нам очень удобный результат, который, возможно, является «естественным». В фармакологии мы используем логарифмическую шкалу для концентраций лекарств гораздо чаще, чем нет,

Еще одна веская причина для масштабирования журналов, вероятно, та, которая вас интересует для данных временных рядов, связана с возможностью масштабирования журналов делать эквивалентные дробные изменения. Представьте себе отображение долгосрочных результатов ваших пенсионных инвестиций. Он (должен) расти примерно по экспоненте, потому что завтрашний интерес зависит от сегодняшних инвестиций (грубо говоря). Таким образом, даже если показатели в процентном отношении были довольно постоянными, график фондов, по-видимому, рос быстрее всего с правой стороны. В логарифмическом масштабе постоянное процентное изменение рассматривается как постоянное вертикальное расстояние, поэтому постоянная скорость роста рассматривается как прямая линия. Это часто является существенным преимуществом.

Еще одна немного более эзотерическая причина выбора логарифмической шкалы возникает в обстоятельствах, когда значения могут быть разумно выражены как x или 1 / x. Примером из моих собственных исследований является сосудистое сопротивление, которое также может быть разумно выражено как обратная сосудистая проводимость. (В некоторых обстоятельствах также целесообразно думать о диаметре кровеносных сосудов, которые масштабируются как сила сопротивления или проводимости.) Ни одна из этих мер не имеет большей реальности, чем другая, и обе они могут быть найдены в исследовательских работах. Если они масштабируются логарифмически, то они просто отрицательны друг от друга, и выбор того или другого не имеет существенных различий. (Диаметр сосудов будет отличаться от сопротивления и проводимости постоянным множителем, когда все они будут масштабированы.)

Майкл Лью
источник
Спасибо за отличный ответ! Можете ли вы уточнить, что «значения могут быть разумно выражены как х»?
ktdrv
4
@ktdrv Некоторые вещи имеют смысл в любом случае. Скажем, вы хотите документально подтвердить способности рыбака. Вы можете подсчитать количество выловленной рыбы за день или измерить интервал между последовательными уловами. Любое измерение имеет смысл, но они нелинейно связаны друг с другом. Они являются масштабированными взаимными ответами друг друга и поэтому могут быть преобразованы один в один в другой. Журнал интервала и журнал числа в день линейно связаны друг с другом и отличаются постоянным (отрицательным) коэффициентом.
Майкл Лью
1
Майкл, спасибо за отличный ответ. Я должен признать, что мне потребовалось некоторое время, чтобы просеять через все ваши пункты (и должен был гуглить несколько терминов, таких как "гетероскедастическая дисперсия"). Я до сих пор собираю воедино то, что реальное влияние ответа будет значить для моей работы, но я благодарен за общее руководство и некоторые рекомендации, которые укажут мне путь.
Дав
x1/xlog(x)x1/x x1/xx1/x
pH=log[H+]
29

Несколько примеров из реальной жизни, которые я должен был передать как дополнение к очень хорошему ответу @Michael Lew.

Во-первых, на двух графиках временных рядов ниже показаны ежемесячные прибытия посетителей в Новую Зеландию, доступные из Статистического управления Новой Зеландии . Оба графика имеют свое назначение, но я считаю, что график с вертикальной осью в логарифмическом масштабе чрезвычайно полезен для многих других целей, чем первый. Например, вы можете видеть, что сезонность в прибывающих остается примерно пропорциональной шкале прибытий; и вы можете увидеть значительные изменения в темпах роста (например, во время второй мировой войны), которые просто невидимы в первоначальном масштабе.

введите описание изображения здесь

Во-вторых, на графиках ниже показаны общие расходы туристов, связанных с поездками в Новую Зеландию, по сравнению с расходами, когда они фактически находятся в Новой Зеландии. Источник - Международный опрос посетителей Министерства экономического развития. Разница - это расходы перед поездкой, например, отели или пакеты, оплаченные заранее. Первый график в исходном масштабе может использоваться для нескольких целей, кроме очень грубого (но важного) представления о данных, сгруппированных в левом нижнем углу. Второй график приносит в жертву некоторую непосредственную интерпретируемость, особенно для нестатиков (из-за этого я обычно теперь фактически использую логарифмическую шкалу по осям, а не преобразую данные и имею шкалу, показывающую логарифмическое значение), но дает много больше визуальной дифференциации.

Например, вы можете четко определить несколько выбросов (которые оказались ошибками при редактировании данных), в которых общие расходы были меньше, чем в Новой Зеландии. Возможно, более важно то, что вы могли бы использовать этот график с разными цветами или фасеткой, чтобы показать, как разные страны рынка или цель посещения (например, отпуск против посещения друзей и семьи) занимают разные части расходного «пространства» - то, что было бы просто невидимым на оригинальных осях.

Чтобы превратить этот график во что-то полезное, потребуется как-то работать с данными с высокой плотностью (например, путем добавления некоторой прозрачности к точкам или замены точек на гексагональные ячейки, окрашенные в соответствии с плотностью), но любое полезное визуальное решение почти наверняка будет включать логарифмические оси.

введите описание изображения здесь

редактировать / дополнять

Еще один график, чтобы проиллюстрировать, что я имел в виду под гексагональными ячейками, используя цвет для представления плотности при большом наборе данных (в данном случае около 12000 респондентов в опросе об опыте Кубка мира по регби в Новой Зеландии). Обратите внимание, это еще один пример, где я использовал логарифмическую шкалу для расходов.

введите описание изображения здесь

Питер Эллис
источник
Питер, спасибо за дополнительную информацию - графика действительно помогает понять твои мысли. Один дополнительный вопрос (если вы так склонны), почему вы бы заменили точки «шестигранными» корзинами? Это та же идея, что и у «Подсолнечника»? Я не слышал этот термин раньше.
Дав
Нет, в отличие от подсолнечника. Задача состоит в том, чтобы разделить область построения на шестиугольные ячейки, а затем раскрасить их (например, от светлого до темного) в соответствии с количеством точек в каждой ячейке. Может быть хорошим способом обойти построение больших наборов данных, которые в противном случае имеют тенденцию просто превращаться в массу черного цвета.
Питер Эллис
@DavidVandenbos - я добавил пример
Питер Эллис
(остальная часть комментария) @PeterEllis Спасибо за разъяснения. Это отличный способ визуализации данных - он очень похож на географические тепловые карты, которые я использую. Вы создали это в R?
Дав
Да, R, используя пакет ggplot2 - очень хорошо для этой цели и довольно просто, как только вы освоите основы.
Питер Эллис
9

Еще одна изящная вещь в логарифмических масштабах - это то, что они делают симметрии отношения Например, вот так: введите описание изображения здесь

Миура
источник
10
Было бы неплохо увидеть тот же сюжет в линейном масштабе, для сравнения
Нико