Неправильно ли использовать линейные графики для дискретных данных?

Я часто видел дискретные наборы данных, построенные в виде линейных графиков, но мне приходит в голову, что линия выводит значение в точке между интервалами измерения, что не имеет смысла для дискретных наборов данных. Таким образом, неверно ли использование линейных графиков для дискретных данных?

В качестве примера возьмем два набора данных временного ряда: один непрерывный (мой вес, измеряемый ежедневно утром) и один дискретный (количество пончиков, которые я ем за день). Первый набор данных имеет смысл представлять собой линейный график, так как разумно сделать вывод, что мой вес в любой день будет связан с моим весом в предшествующие и последующие утра. Тем не менее, если количество пончиков представлено в виде линейного графика, то линии между точками не могут быть выведены из этой линии.

РЕДАКТИРОВАТЬ

Вот еще один пример: федеральная почасовая минимальная заработная плата с момента ее создания на http://mste.illinois.edu/courses/ci330ms/youtsey/lineinfo.html

Если я не ошибаюсь, изменения минимальной заработной платы являются дискретными, и, следовательно, невозможно найти какое-то произвольно выбранное время и установить минимальную заработную плату в точке, используя линию, соединяющую точки.

data-visualization user1379351
источник

(+1) Пример почасовой минимальной заработной платы превосходен. Сама формулировка вашего вопроса предлагает хороший ответ: а именно, что точки соединения на графике недопустимы, когда это заставит читателя делать неточные (или вообще неверные) интерполяции. Различение между дискретностью и разрывом поможет провести дальнейший анализ: потребление пончиков дискретно, а минимальная заработная плата - прерывиста. Каждый заслуживает различной формы сюжета.

whuber

Есть графики, на которых точечная диаграмма с дискретными данными вводит в заблуждение по линейному графику. В примерах, когда необходима последовательность событий (гистерезис) или происходят колебания между двумя уровнями, и необходимо отслеживать изменения состояния и их местоположение. Итак: не используйте линейные графики, чтобы подразумевать интерполяцию, но используйте их в качестве руководства, если это необходимо. Это не достаточно просто сделать простое правило выбора, но требует рассмотрения данных и модели под рукой.

wirrbel

Интересный вопрос! Спасибо за это. Я имею дело с большим количеством связанных со временем данных, которые частично происходят из дискретных моделей и частично измеренных данных. А как насчет возможности использования графиков со ступенчатой линией для дискретных данных (которые могут быть непрерывными в некотором смысле, но у нас все еще нет функции между отдельными точками и не можем просто предполагать, что она есть) и обычными для непрерывных данных? Вот как я с этим

справляюсь

@CordKaldemeyer спасибо за комментирование - я не знал о типе диаграммы "шаговая линия", но это определенно то, что я ищу. Я также нашел этот полезный учебник по построению

пошаговых

@ user1379351: Рад, что смог помочь!

Шнур Калдемейер

Ответы:

Графики соединенных линий оказались слишком полезными, чтобы ограничить их единственной интерпретацией. Несколько выдающихся применений:

Интерполированные значения . Случай, который вы упомянули, где обе переменные являются непрерывными и каждая интерполированная точка вдоль линии в качестве значимой интерпретации.
Скорость изменения . Даже если промежуточные значения не имеют смысла, наклон каждого отрезка является хорошим показателем скорости изменения. Обратите внимание, что для этой интерпретации значения X и Y должны быть соответствующим образом разнесены, что не соответствует приведенному вами графику заработной платы.
Сравнение профилей . При сравнении небольших кратных или наложенных мер, линии могут быть полезны даже для категориальных факторов. В этом случае линии служат для соединения групп ответов для ограниченного распознавания образов. Вот пример с peltiertech.com с коэффициентом по оси Y (вместо X) для удобочитаемости этикетки:

введите описание изображения здесь

Xan
источник

Да, но 2-й и 3-й графы строго менее мощны, чем первый, поскольку исчисление вообще невозможно.

Milind R

Ну, пончики могут быть связаны с весом :-)

Хотя я понимаю вашу точку зрения, я думаю, что этот пример не так уж плох, потому что время (на горизонтальной оси, на которое ссылаются линии) непрерывно. Смысл этой строки, для меня, не столько в том, что каждый раз в день вы съели определенное количество пончиков, но в том, что количество пончиков в день меняется каким-то регулярным образом. Таким образом, мы могли бы добавить что-то вроде более гладкого лесса к линии, и это имело бы смысл. По крайней мере, разумно думать о пончиках, съедаемых в каждый час или даже каждую минуту (хотя это было бы более разумно с переменной, где количество в день было выше)

Больше всего беспокоит то, что горизонтальная ось дискретна (особенно когда она номинальная), но линии нарисованы. Это действительно не имеет смысла. Например, если вы смотрите (скажем) на процент голосовавших за Обаму среди (скажем) жителей разных регионов США, нет смысла проводить черту между Северо-востоком и Средним Западом; тем более что порядок областей произвольный, но изменение порядка приведет к изменению линий. И все же я видел такие графики.

Питер Флом - Восстановить Монику
источник

Абсолютно согласен с тем, что существуют гораздо худшие нарушения линейных графиков. Мне нравится более плавный подход, поскольку он не связывает точки и, следовательно, не подразумевает данных, которых там нет. Но это помогает подчеркнуть тревожную тенденцию потребления пончиков. Благодарность!

user1379351

Похоже, вы предлагаете заменить одну переменную - потребление пончиков - другой; а именно, плотность потребления пончиков (пончики в единицу времени). Хотя это часто делается - особенно в двумерном анализе (таком как карты плотности населения) - и может быть очень эффективным, для читателей было бы хорошо знать, что есть различие, и рассмотреть, как это различие может раскрываться графически.

whuber

@whuber Это справедливо; линия, кажется, делает эту замену. График, который не делает эту замену, может быть просто точками, не связанными между собой, но, похоже, он дает хотя бы намек на то, что пончик находится в определенной точке. Таким образом, мы можем сделать время непрерывным и поставить точку в момент, когда пончик был употреблен.

Питер Флом - Восстановить Монику