Представление экспериментальных данных

9

У меня есть спор с моим советником по поводу визуализации данных. Он утверждает, что при представлении результатов эксперимента значения должны быть нанесены только с помощью « маркеров », как показано на рисунке ниже. Хотя кривые должны представлять только « модель »

Markers.png

С другой стороны, я считаю, что кривая во многих случаях не нужна, чтобы улучшить читаемость, как показано на втором изображении ниже:

Lines.png

Я не прав или мой профессор? Если последним является случай, как я могу обойти это, чтобы объяснить это ему.

Иван П.
источник
5
Точки - это данные. Кривые, которые вы подходите к точкам, не являются данными. Так что, если вы намереваетесь показать данные ...
3
Как говорит Джефф. Чтобы быть еще более явным: кривые, которые вы построили, являются моделью, потому что вы приняли определенную форму при их рисовании, и у вас были некоторые аргументы в пользу этой формы. Это обоснование основано на конкретной модели.
Gerrit
1
Я отправил запрос на миграцию; это действительно относится к перекрестной проверке, а не здесь.
2
Я думаю, что это может быть по теме на CrossValidated, но это определенно также по теме здесь . Миграцию следует рассматривать только в том случае, если она здесь не по теме (есть вопросы, которые могут быть по теме на двух сайтах, это нормально). Это реальный вопрос с правильными ответами, он определенно актуален для многих ученых.
2
Ваш второй график сомнителен. Если бы вы соединили точки с прямыми линиями, у вас (возможно) есть аргумент для наглядности. Но используя кривую, вы утверждаете, что пик синей линии находится при 740 °, а минимум фиолетовой линии - при 840 °, даже если у вас нет экспериментальных данных при этих температурах. Ввод мин / макс за пределами измеренных данных - красный флаг.
Даррен Кук

Ответы:

10

Мне нравится это правило:

Если вам нужна линия для направления глаза (то есть, чтобы показать тренд, который без линии не был бы виден так четко), вам не следует ставить линию.

Люди очень хорошо распознают закономерности (мы скорее находимся на стороне наблюдающих тенденций, которые не существуют, чем пропускаем существующие тенденции). Если мы не можем получить тренд без линии, мы можем быть уверены, что ни один тренд не может быть окончательно показан в наборе данных.

Говоря о втором графике, единственным показателем неопределенности ваших точек измерения являются два красных квадрата C: O 1.2 при 700 ° C. Распространение этих двух означает, что я бы не принял, например,

  • что для C: O 1.2 вообще есть тенденция
  • что есть разница между 2,0 и 3,6
  • и наверняка изогнутые модели соответствуют данным.

без очень веских причин. Это, однако, снова будет моделью.


редактировать: ответ на комментарий Ивана:

Я химик, и я бы сказал, что нет измерения без ошибки - то, что приемлемо, будет зависеть от эксперимента и инструмента.

Этот ответ не против того, чтобы показать экспериментальную ошибку, а за то, чтобы показать и принять ее во внимание.

Идея, лежащая в основе моих рассуждений, состоит в том, что график показывает ровно одно повторное измерение, поэтому, когда речь идет о том, насколько сложной должна быть модель (то есть горизонтальная линия, прямая, квадратичная, ...), это может дать нам представление об измерении. ошибка. В вашем случае это означает, что вы не сможете уместить содержательный квадратик (сплайн), даже если у вас была жесткая модель (например, термодинамическое или кинетическое уравнение), предполагающая, что она должна быть квадратичной - у вас просто недостаточно данных ,

Чтобы проиллюстрировать это:

df <-data.frame (T      =         c ( 700,  700,  800, 900,  700, 800, 900, 700, 800, 900), 
                 C.to.O = factor (c ( 1.2,  1.2,  1.2, 1.2,  2  , 2  , 2  , 3.6, 3.6, 3.6)),
                 tar    =         c (21.5, 18.5, 19.5, 19,  15.5, 15 , 6  , 16.5, 9, 9))

Вот линейное соответствие с 95% доверительным интервалом для каждого из соотношений C: O:

ggplot (df, aes (x = T, y = tar, col = C.to.O)) + geom_point () + 
    stat_smooth (method = "lm") + 
    facet_wrap (~C.to.O)

линейная модель

Обратите внимание, что для более высоких отношений C: O доверительный интервал значительно ниже 0. Это означает, что неявные предположения линейной модели неверны. Тем не менее, вы можете сделать вывод, что линейные модели для более высокого содержания C: O уже перегружены.

Итак, вернемся назад и подгоним только постоянное значение (т.е. без зависимости T):

ggplot (df, aes (x = T, y = tar, col = C.to.O)) + geom_point () + 
    stat_smooth (method = "lm", formula = y ~ 1) + 
    facet_wrap (~C.to.O) 

нет зависимости от Т

Дополнение состоит в том, чтобы моделировать зависимость от C: O:

ggplot (df, aes (x = T, y = tar)) + geom_point (aes (col = C.to.O)) + 
    stat_smooth (method = "lm", formula = y ~ x) 

нет зависимости C: O

Тем не менее, доверительный интервал будет охватывать горизонтальные или даже слегка восходящие линии.

Вы можете продолжить и попытаться, например, разрешить различные смещения для трех соотношений C: O, но используя равные наклоны.

Однако уже несколько измерений значительно улучшат ситуацию - обратите внимание, насколько узкие доверительные интервалы для C: O = 1: 1, где у вас есть 4 измерения вместо только 3.

Вывод: если вы сравните мои точки зрения, к каким выводам я бы отнесся скептически, они слишком много читали о немногих доступных пунктах!

cbeleites недоволен SX
источник
Вы делаете очень хорошее замечание. Однако в технике экспериментальная ошибка (неопределенность) очень распространена, и предполагается, что приемлема относительная погрешность 3-5%. Тем не менее я должен показать результаты MAX, MIN и AVG. Так что в моем случае маркеры - это конечности, а линия - средняя.
Иван П.
очень хороший и очень полезный пример (вы заинтересовали меня R). Поэтому, конечно, правильнее всего получить больше точек данных.
Иван П.
12

Как говорит Джефф: очки - это данные . В общем, хорошо избегать добавления кривых в максимально возможной степени. Одной из причин добавления кривой является то, что она делает график более привлекательным для глаз, делая точки и тренд между точками более читабельными. Это особенно верно, если у вас мало точек данных.

Однако существуют и другие способы отображения разреженных данных , которые могут быть лучше, чем точечные диаграммы. Одной из возможностей является гистограмма, где различные бары гораздо более заметны, чем ваши отдельные точки. Цветовой код (аналогичный тому, который у вас уже есть на рисунке) поможет увидеть тенденции в каждом ряду данных (или ряд данных может быть разбит и представлен рядом друг с другом в меньших отдельных гистограммах).

Наконец, если вы действительно хотите добавить какую-то линию между вашими символами, есть два случая:

  1. Если вы ожидаете, что определенная модель будет действительной для ваших данных (линейная, гармоническая и т. Д.), Вам следует разместить данные в модели, объяснить модель в тексте и прокомментировать соответствие между данными и моделью.

  2. Если у вас нет разумной модели данных, вы не должны включать в свой график дополнительные предположения . В частности, это означает, что вы не должны включать какие-либо линии между вашими точками, кроме прямых линий. Хорошие интерполяции «подгонки сплайнов», которые Excel (и другое программное обеспечение) может нарисовать, являются ложью . Нет никаких веских причин для ваших данных следовать этой конкретной математической модели, поэтому вы должны придерживаться прямых отрезков.

    Кроме того, в этом случае было бы неплохо добавить заявление об отказе где-то в подписи к рисунку, например, «линии - это только направляющие для глаза».

F'x
источник
2
Это отличный совет, за исключением комментариев о том, что бары более подходящие. Для аналогичного обсуждения, связанного с этим, см. Альтернативную графику для графиков «обработки панели» . Представьте себе график, указанный ОП как кластеризованную гистограмму, было бы очень трудно визуализировать тренд по диапазонам искушений. Способ сделать точки более легко видимыми - это расшатать их вдоль оси x, и работа Кливленда предполагает, что мы все равно должны предпочесть точки столбцам.
Энди Ш
@ Andy W, что ты имеешь в виду под "дрожать вдоль оси x"?
Иван П.
1
@IvanP., Я имею в виду, вместо того, чтобы делать точки, привязанные к этому конкретному значению на абсциссе, перемещать их вправо или влево, чтобы точки не закрывали друг друга. Из остальной части графика должно быть ясно, что они действительно относятся к точным значениям для групп на оси X, и небольшое дрожание не должно влиять на визуализацию тренда между значениями.
Энди Ш
6

1-Ваш профессор делает правильное замечание.

2-Ваш сюжет определенно не увеличивает читабельность ИМХО.

3-Насколько я понимаю, это неправильный форум, чтобы задавать подобные вопросы на самом деле, и вы должны задать их при перекрестной проверке.

blackace
источник
Мне интересно знать, где проблема в удобочитаемости, и любые предложения по улучшению очень приветствуются
Иван П.
1

Иногда точки соединения имеют смысл, особенно если они очень плотные.

И тогда может иметь смысл интерполировать (например, с помощью сплайна ). Однако, если это что-то более продвинутое, чем сплайн первого порядка (для которого очевидно, что это просто точки соединения), вам нужно упомянуть об этом.

Тем не менее, в случае нескольких или десятков пунктов, это не так. Просто оставьте точки, как они есть, с маркерами. Если вы хотите уместить линию (или другую кривую), это модель. Вы можете добавить его, но быть явным - например, «линия представляет собой линейное соответствие регрессии».

Петр Мигдаль
источник
0

Я думаю, что есть случаи, когда кто-то не предлагает явную модель, но нуждается в каком-то руководстве для глаз. Тогда мое правило - избегать таких кривых, как чума, и придерживаться кусочно-прямых линий между последовательными точками ряда.

С одной стороны, это предположение более очевидно для читателей. Кроме того, остроконечность хорошо удерживает читателей от предположения о тенденциях, не поддерживаемых данными. Если вообще, это только подчеркивает шум и выбросы.

Вещь, которую я опасаюсь, - это поверхностное (не строгое, не явное) использование сплайнов, квадратиков, регрессии и т. Д. Очень часто это заставляет думать, что есть тенденции, где их нет. Хорошим примером злоупотребления являются кривые, нарисованные @Ivan. С 3 точками данных я не думаю, что максимумы или минимумы в базовой модели очевидны.

curious_cat
источник