Как представить коробочный сюжет с экстремальным выбросом?

17

Я мог бы использовать некоторые рекомендации по представлению некоторых данных.

Этот первый график представляет собой сравнение случай-контроль для цитокина IL-10. Я вручную установил ось Y, чтобы включить 99% данных.

Ил-10 с ручной осью Y

Причина, по которой я установил это вручную, заключается в том, что группа дел имеет экстремальный выброс. С выбросом

Мои сотрудники не решаются выполнить удаление нашего набора данных. Я в порядке с этим, но они бы предпочли нет. Это было бы очевидным решением. Но если я собираюсь сохранить все данные и не удалять этот выброс, как я могу оптимально представить этот блок-график? Ось расщепления? Допустимо ли использовать только первый график и отметить, что он был составлен для включения всех данных? (Этот вариант кажется мне нечестным). Будем признательны любому совету.

Алекс С
источник
5
Почему бы не представить оба участка?
Алексис

Ответы:

24

Я бы сказал, что с такими данными вам действительно нужно показывать результаты в преобразованном масштабе. Это первый императив и более важный вопрос, чем именно то, как нарисовать прямоугольник.

Но я повторяю Фрэнку Харреллу, призывая к чему-то более информативному, чем минимальный сюжет, даже с некоторыми крайними точками. У вас достаточно места, чтобы показать гораздо больше информации. Вот один из многих примеров: гибридная коробка и квантильный сюжет. Как и в ваших данных, сравниваются две группы.

введите описание изображения здесь

Я возьму эти два пункта один за другим и скажу больше.

Преобразованная шкала

В простейшем случае все ваши значения могут быть положительными, и вам следует сначала попробовать использовать логарифмическую шкалу.

Если у вас есть точные нули, масштаб квадратного корня или кубического корня все еще улучшит крайнюю асимметрию. Некоторые люди довольны log (значение + константа), где константа чаще всего равна 1, как способ справиться с нулями.

Последствия для коробчатых участков использования трансформированной шкалы невелики.

Если вы используете общее соглашение Тьюки, согласно которому все точки за пределами верхнего квартиля + 1,5 IQR или нижнего квартиля - 1,5 IQR отображаются по отдельности, то, вероятно, эти пределы следует рассчитывать по преобразованной шкале. Это не то же самое, что вычисление этих пределов в исходном масштабе, а затем преобразование.

Вместо этого я бы поддержал, как представляется, соглашение меньшинства о выборе квантилей для целей усов. Одним из нескольких преимуществ этого является то, что преобразование квантиль = квантиль преобразования, по крайней мере, достаточно близко для графических целей в большинстве случаев. (Мелкий шрифт - всякий раз, когда квантили рассчитываются путем линейной интерполяции между статистикой смежного порядка.)

Это квантильное соглашение было предложено довольно заметно Кливлендом (1985). Для справки: в географии и климатологии были использованы расширенные коробчатые графики с коробками для квартилей, более тонкие коробки с внешними осциллами (точки 12,5 и 87,5%) и (например) Мэтьюзом (1936) и Гроувом (1956) в разделе географии и климатологии. название "дисперсионные диаграммы".

Больше, чем коробочные участки

Коробочные сюжеты были заново изобретены Тьюки в 1970 году и наиболее заметно продвинуты в его книге 1977 года. Большая часть его цели состояла в том, чтобы продвинуть графы, которые могли быть быстро нарисованы, используя ручку (cil) и бумагу в неофициальном исследовании. Он также предлагал способы выявления возможных выбросов. Это было хорошо, но теперь у нас у всех есть доступ к компьютерам, безболезненно составлять графики, показывающие, если не все данные, то, по крайней мере, гораздо больше деталей. Сводная роль блочных графиков ценна, но график может также показать тонкую структуру, на случай, если она будет интересной или важной. (И то, что исследователи считают неинтересным или неважным, может быть более поразительным для их читателей.)

Есть много места для вежливых разногласий по поводу того, что именно работает лучше всего, но, на мой взгляд, голые участки были перепроданы.

Пользователи Stata могут найти больше о программе, которая нарисовала фигуру в этом посте Statalist . Пользователи другого программного обеспечения не должны испытывать затруднений при рисовании чего-то хорошего или лучшего (иначе зачем использовать это программное обеспечение?).

Cleveland, WS 1985. Элементы графического отображения данных. Монтерей, Калифорния: Уодсворт.

Grove, AT 1956. Эрозия почвы в Нигерии. В Steel, RW и Fisher, CA (Eds) Географические очерки о британских тропических землях. Лондон: Джордж Филипп, 79-111.

Мэтьюз, HA 1936. Новый взгляд на некоторые знакомые индийские дожди. Шотландский географический журнал 52: 84-97.

Tukey, JW 1977. Исследовательский анализ данных. Чтение, Массачусетс: Аддисон-Уэсли.

Ник Кокс
источник
1
Я никогда не видел такого сопоставления коробочных графиков и ECDF. Очень круто! Что вы думаете о наложении двух ECDF на отдельную панель?
Фрэнк Харрелл
2
@ Фрэнк Харрелл Спасибо. Наложение тоже хорошая идея. Посмотрите, например, stata-journal.com/sjpdf.html?articlenum=gr0018 для некоторых примеров в моей работе.
Ник Кокс
14

Не отнимать ничего от превосходного ответа Ника, который, я думаю, стоит тикания и откровенности - но я хотел изучить некоторые возможности.

С такими сильно искаженными данными на несколько порядков, построение графиков в логарифмическом масштабе часто довольно показательно; обратите внимание, что у вас все еще могут быть метки и метки в исходных значениях. (Я согласен с замечаниями Ника, касающимися трансформаций, поэтому я не буду более подробно останавливаться на этом.)

Другой вариант, кроме преобразования, это сделать что-то вроде вашего второго графика, но включить указание всех значений, которые не были нанесены на график:

  введите описание изображения здесь

Таким образом, вы не удаляете выбросы, а просто отображаете их по-другому.

Тем не менее, я бы присоединился к Фрэнку и Нику, предложив использовать более информативный дисплей, чем простой блокпост - комбинация блокпоста с квантильным графиком в посте Ника кажется особенно хорошим понятием, хотя можно было бы изобразить квантильный график слегка (или под как здесь) соответствующая коробка вместо нее:

  введите описание изображения здесь

Если вы не делаете что-то подобное (скажем, просто выбираете простой блокпост), я бы предложил существенно более узкие блоки.

Glen_b - Восстановить Монику
источник
3
Наложение квантильных и коробочных графиков также привлекательно. Это подчеркивает, что рамочный график представляет собой сокращение квантильного графика, хотя для некоторых рамочный график может показаться излишним. Для сильного акцента на взаимосвязи между двумя графиками, см., Например, Parzen, E. 1979. Непараметрическое статистическое моделирование данных. Журнал Американской Статистической Ассоциации 74: 105-121
Ник Кокс
У вас есть набор данных ОП? Или ты скребешь график / притворяешься?
Ник Кокс
2
@ Ник Просто притворяюсь; Я эффективно очистил крайние точки (просто вручную, их было так мало), а затем сгенерировал значения ниже верхних квартилей путем выборки из 3 униформ между известными значениями (3 квартилями и минимумом) и между верхними квартилями и концом из верхних усов с экспонентами, затем добавил крайние точки в (так, чтобы мои боксы выглядели одинаково). По крайней мере, в этом суть идеи. Крайние точки не будут точными, поэтому напечатанные значения на моем графике больше похожи на примеры.
Glen_b
@Glen_b Я могу задать отдельный вопрос, если вы предпочитаете, но какой метод вы использовали, чтобы наложить квантильный график на блокпост?
Таврок
@Tavrock Прошло два с половиной года с тех пор, как я написал это, так что я думаю. Очевидная вещь, которую нужно сделать, это вызвать pointsотображение значений квантилей (это выглядит как-то по линиям xs=sort(x); points(ppoints(xs),xs)после боксплота, но при близком рассмотрении точки находятся ниже боксплота, так что, возможно, это был график, а затем боксплот с add = TRUE или возможно, это был блокпост, затем очки, затем блокпост на вершине ... возможно
Glen_b
5

Я предпочитаю расширенные сюжетные или скрипичные сюжеты, потому что они содержат гораздо больше информации. Я масштабирую расширенные коробочные графики до 0,01 и 0,99 квантилей объединенных выборок. Видеть Http://biostat.mc.vanderbilt.edu/wiki/pub/Main/StatGraphCourse/graphscourse.pdf для получения подробной информации.

Фрэнк Харрелл
источник