У меня есть спор с моим советником по поводу визуализации данных. Он утверждает, что при представлении результатов эксперимента значения должны быть нанесены только с помощью « маркеров », как показано на рисунке ниже. Хотя кривые должны представлять только « модель »
С другой стороны, я считаю, что кривая во многих случаях не нужна, чтобы улучшить читаемость, как показано на втором изображении ниже:
Я не прав или мой профессор? Если последним является случай, как я могу обойти это, чтобы объяснить это ему.
data-visualization
communication
Иван П.
источник
источник
Ответы:
Мне нравится это правило:
Люди очень хорошо распознают закономерности (мы скорее находимся на стороне наблюдающих тенденций, которые не существуют, чем пропускаем существующие тенденции). Если мы не можем получить тренд без линии, мы можем быть уверены, что ни один тренд не может быть окончательно показан в наборе данных.
Говоря о втором графике, единственным показателем неопределенности ваших точек измерения являются два красных квадрата C: O 1.2 при 700 ° C. Распространение этих двух означает, что я бы не принял, например,
без очень веских причин. Это, однако, снова будет моделью.
редактировать: ответ на комментарий Ивана:
Я химик, и я бы сказал, что нет измерения без ошибки - то, что приемлемо, будет зависеть от эксперимента и инструмента.
Этот ответ не против того, чтобы показать экспериментальную ошибку, а за то, чтобы показать и принять ее во внимание.
Идея, лежащая в основе моих рассуждений, состоит в том, что график показывает ровно одно повторное измерение, поэтому, когда речь идет о том, насколько сложной должна быть модель (то есть горизонтальная линия, прямая, квадратичная, ...), это может дать нам представление об измерении. ошибка. В вашем случае это означает, что вы не сможете уместить содержательный квадратик (сплайн), даже если у вас была жесткая модель (например, термодинамическое или кинетическое уравнение), предполагающая, что она должна быть квадратичной - у вас просто недостаточно данных ,
Чтобы проиллюстрировать это:
Вот линейное соответствие с 95% доверительным интервалом для каждого из соотношений C: O:
Обратите внимание, что для более высоких отношений C: O доверительный интервал значительно ниже 0. Это означает, что неявные предположения линейной модели неверны. Тем не менее, вы можете сделать вывод, что линейные модели для более высокого содержания C: O уже перегружены.
Итак, вернемся назад и подгоним только постоянное значение (т.е. без зависимости T):
Дополнение состоит в том, чтобы моделировать зависимость от C: O:
Тем не менее, доверительный интервал будет охватывать горизонтальные или даже слегка восходящие линии.
Вы можете продолжить и попытаться, например, разрешить различные смещения для трех соотношений C: O, но используя равные наклоны.
Однако уже несколько измерений значительно улучшат ситуацию - обратите внимание, насколько узкие доверительные интервалы для C: O = 1: 1, где у вас есть 4 измерения вместо только 3.
Вывод: если вы сравните мои точки зрения, к каким выводам я бы отнесся скептически, они слишком много читали о немногих доступных пунктах!
источник
Как говорит Джефф: очки - это данные . В общем, хорошо избегать добавления кривых в максимально возможной степени. Одной из причин добавления кривой является то, что она делает график более привлекательным для глаз, делая точки и тренд между точками более читабельными. Это особенно верно, если у вас мало точек данных.
Однако существуют и другие способы отображения разреженных данных , которые могут быть лучше, чем точечные диаграммы. Одной из возможностей является гистограмма, где различные бары гораздо более заметны, чем ваши отдельные точки. Цветовой код (аналогичный тому, который у вас уже есть на рисунке) поможет увидеть тенденции в каждом ряду данных (или ряд данных может быть разбит и представлен рядом друг с другом в меньших отдельных гистограммах).
Наконец, если вы действительно хотите добавить какую-то линию между вашими символами, есть два случая:
Если вы ожидаете, что определенная модель будет действительной для ваших данных (линейная, гармоническая и т. Д.), Вам следует разместить данные в модели, объяснить модель в тексте и прокомментировать соответствие между данными и моделью.
Если у вас нет разумной модели данных, вы не должны включать в свой график дополнительные предположения . В частности, это означает, что вы не должны включать какие-либо линии между вашими точками, кроме прямых линий. Хорошие интерполяции «подгонки сплайнов», которые Excel (и другое программное обеспечение) может нарисовать, являются ложью . Нет никаких веских причин для ваших данных следовать этой конкретной математической модели, поэтому вы должны придерживаться прямых отрезков.
Кроме того, в этом случае было бы неплохо добавить заявление об отказе где-то в подписи к рисунку, например, «линии - это только направляющие для глаза».
источник
1-Ваш профессор делает правильное замечание.
2-Ваш сюжет определенно не увеличивает читабельность ИМХО.
3-Насколько я понимаю, это неправильный форум, чтобы задавать подобные вопросы на самом деле, и вы должны задать их при перекрестной проверке.
источник
Иногда точки соединения имеют смысл, особенно если они очень плотные.
И тогда может иметь смысл интерполировать (например, с помощью сплайна ). Однако, если это что-то более продвинутое, чем сплайн первого порядка (для которого очевидно, что это просто точки соединения), вам нужно упомянуть об этом.
Тем не менее, в случае нескольких или десятков пунктов, это не так. Просто оставьте точки, как они есть, с маркерами. Если вы хотите уместить линию (или другую кривую), это модель. Вы можете добавить его, но быть явным - например, «линия представляет собой линейное соответствие регрессии».
источник
Я думаю, что есть случаи, когда кто-то не предлагает явную модель, но нуждается в каком-то руководстве для глаз. Тогда мое правило - избегать таких кривых, как чума, и придерживаться кусочно-прямых линий между последовательными точками ряда.
С одной стороны, это предположение более очевидно для читателей. Кроме того, остроконечность хорошо удерживает читателей от предположения о тенденциях, не поддерживаемых данными. Если вообще, это только подчеркивает шум и выбросы.
Вещь, которую я опасаюсь, - это поверхностное (не строгое, не явное) использование сплайнов, квадратиков, регрессии и т. Д. Очень часто это заставляет думать, что есть тенденции, где их нет. Хорошим примером злоупотребления являются кривые, нарисованные @Ivan. С 3 точками данных я не думаю, что максимумы или минимумы в базовой модели очевидны.
источник