Какова история коробочных сюжетов и как развивался дизайн «коробочек и усов»?

19

Многие источники датируют классический дизайн «коробочного сюжета» Джоном Тьюки и его «схематическим сюжетом» 1970 года. С тех пор дизайн, кажется, оставался относительно статичным, так как урезанная версия Эдварда Туфте с сюжетной коробкой оказалась не в состоянии завоевать популярность, в то время как сюжеты для скрипки - хотя и более информативный вариант рамочного сюжета - остаются менее популярными. Предложение Кливленда о том, что усы распространяются на 10 и 90 процентили, имеет некоторых сторонников, см. Cox (2009) , но не является нормой.

Хэдли Уикхем и Лиза Стриевски написали неопубликованную статью по истории коробочных сюжетов, но, похоже, она не охватывает исторических предшественников коробочных сюжетов.

Так как же появился нынешний, вездесущий сюжет «коробка и усы»? Из какого вида визуализации данных она развивалась, имели ли эти более ранние разработки какие-либо существенные преимущества, и почему они, по-видимому, столь полно затмевались при использовании схемы Тьюки? Иллюстрированный ответ был бы бонусом, но было бы полезно обратиться к ссылке, которая исторически погружается глубже, чем Уикхем и Стриевский.

Ссылки

  • Кокс, Нью-Джерси (2009). Speaking Stata: Создание и изменение рамок. Stata Journal , 9 (3), 478.
  • Wickham H. and Stryjewski L. (2011). 40 лет боксплотов. http://vita.had.co.nz/papers/boxplots.pdf
тарпон
источник
1
Некоторое уместное обсуждение ряда предшественников здесь: stats.stackexchange.com/questions/125521/… ... Тьюки знал о работе Мэри Спирс, но, возможно, он не видел ни одного из более ранних
Glen_b -Reinstate Monica
Спасибо @Glen_b, это была действительно дискуссия, которую я прочитал, которая вдохновила этот вопрос, но мне потребовалось 4 года, чтобы обойти его, и я не смог отследить дискуссию! (К сожалению, комментарии не отображаются в поиске по сайту, поэтому было бы полезно попытаться включить их в надлежащие вопросы и ответы.)
Silverfish,
1
Я использую поиск Google с site:stats.stackexchange.comнабором, чтобы отслеживать вещи в комментариях. Я смог вспомнить достаточно подробностей (это была дискуссия между Ником и мной, касающаяся коробочных сюжетов, и что я упомянул Шмида), чтобы получить первый удар.
Glen_b
1
Тангенциальное замечание о выбросах boxplot. Два правила были широко использованы. Один из них по умолчанию (в R и других программах) состоит в том, что наблюдения ниже или выше обозначаются как выбросы; «1.5IQR-правило». В ранних версиях Minitab также использовал правило , называя более экстремальные выбросы «вероятными выбросами» и менее экстремальные «возможными выбросами». По крайней мере для примерно нормальных данных оба правила показывают процент выбросов, которые сильно различаются в зависимости от размера выборки моделирования правило будет более стабильным вплоть до 1000-х годов. Q 3 + 1,5 I Q R 3 I Q R n . 2,25 I Q RQ1-1,5яQрQ3+1,5яQр3яQрN,2,25яQр
BruceET
1
github.com/hadley/boxplots-paper содержит много материалов, таких как отчеты анонимных рецензентов из журнала («_American Statistician_») (краткие и обескураживающие) и независимые, но частично совпадающие незапрошенные рецензии с Дэвидом Хоаглином и мной (оба гораздо более подробные).
Ник Кокс

Ответы:

18

Резюме генерального директора

История намного длиннее и сложнее, чем думают многие.

Управляющее резюме

История того, что Тьюки называл коробчатыми диаграммами, запутана с историей того, что сейчас часто называют точечными или полосчатыми диаграммами (десятки других имен), и представлениями эмпирической функции квантиля.

Коробочные сюжеты в широко распространенных формах наиболее известны благодаря работе Джона Уайлдера Тьюки (1970, 1972, 1977).

Но идея показа медианы и квартилей в качестве основных сводок - часто вместе, но не всегда, с точками, показывающими все значения - восходит, по крайней мере, к диаграммам рассеяния (много вариантов названий), представленным географом Перси Робертом Кроу (1933). Они были основной платой для географов и использовались во многих учебниках, а также в научных трудах с конца 1930-х годов.

Бибби (1986, с.56, 59) дал еще более ранние ссылки на подобные идеи, которым учил Артур Лайон Боули (позднее сэр Артур) в своих лекциях о 1897 году, и на его рекомендации (Bowley, 1910, с.62; 1952, с.73 ) использовать минимальные и максимальные и 10, 25, 50, 75 и 90% баллов в качестве основы для графического резюме.

Диапазоны, показывающие крайности и квартили, часто приписывают Мэри Элеоноре Спир (1952), но в моем чтении меньше людей цитируют Кеннета У. Хэмера (1948). Статьи Гемера о статистической графике, опубликованные американским статистиком в 1950 году, были изобретательными, имели критический смысл и по-прежнему заслуживают перечитывания. (Многие читатели смогут получить к ним доступ через jstor.org.) В отличие от этого, книги Спир (Spear 1969 - перефразировка) были доступными и осмысленными, но намеренно вводными, а не новаторскими или научными.

Варианты коробочных графиков, в которых усы распространяются на выбранные процентили, встречаются чаще, чем кажется многим. Опять же, эквивалентные участки использовались географами с 1930-х годов.

То, что является наиболее оригинальным в версии блочных графиков Тьюки, это, прежде всего, критерии для определения точек в хвостах, которые должны быть нанесены отдельно и идентифицированы как заслуживающие подробного рассмотрения, и как часто отмечающие, что переменная должна быть проанализирована в преобразованном масштабе. Его эмпирическое правило 1,5 IQR появилось только после долгих экспериментов. В некоторых руках он превратился в жесткое правило для удаления точек данных, что никогда не было целью Тьюки. Резкое, запоминающееся имя - сюжет коробки - не повредило в обеспечении гораздо более широкого воздействия этих идей. Дисперсионная диаграмма, напротив, довольно скучный и унылый термин.

Довольно длинный список ссылок здесь, возможно, вопреки внешнему виду, не является исчерпывающим. Цель состоит в том, чтобы просто предоставить документацию для некоторых прекурсоров и альтернатив для участка. Конкретные ссылки могут быть полезны для подробных запросов или если они находятся близко к вашей области. И наоборот, изучение практики в других областях может быть полезным. Графический, а не только картографический, опыт географов часто недооценивают.

Подробнее

Гибридные точечные графики использовались Кроу (1933, 1936), Мэтьюзом (1936), Хоггом (1948), Монкхаусом и Уилкинсоном (1952), Фармером (1956), Грегори (1963), Хаммондом и МакКаллахом (1974), Льюисом. (1975), Matthews (1981), Wilkinson (1992, 2005), Ellison (1993, 2001), Wild and Seber (2000), Quinn и Keough (2002), Young et al. (2006) и Хендри и Нильсен (2007) и многие другие. См. Также Миллер (1953, 1964).

Кливленд (1985) подчеркивал, что рисование усов в определенных процентилях, а не в точках данных в пределах столь большого количества IQR квартилей, было ожидаемым Мэтьюзом (1936) и Гроувом (1956), которые строили межцитильный диапазон, означая между первым и первым. седьмой октил, а также ассортимент и межквартильный размах. Dury (1963), Johnson (1975), Harris (1999), Myatt (2007), Myatt and Johnson (2009, 2011) и Davino et al. (2014) показал среднее, а также минимум, квартили, медиану и максимум. Шмид (1954) показал сводные графики с медианой, квартилями и точками 5 и 95%. Bentley (1985, 1988), Davis (2002), Spence (2007, 2014) и Motulsky (2010, 2014, 2018) нанесли усы на 5 и 95%. Морган и Генрион (1990, с. 221, 241), Спенс (2001, с. 36) и Готелли и Эллисон (2004, 2013, с. 72, 110, 213, 416) наносил усы на 10% и 90% баллов. Харрис (1999) показал примеры как 5 и 95%, так и 10 и 90% баллов. Altman (1991, с. 34, 63) и Greenacre (2016) нанесли на усы 2,5% и 97,5%. Рейман и соавт. (2008, с.46-47) нанесли усы на 5% и 95%, а также на 2% и 98%.

Parzen (1979a, 1979b, 1982) гибридизировал коробчатые и квантильные участки как участки квантильных коробок. См. Также (например) Shera (1991), Militký and Meloun (1993), Meloun и Militký (1994). Обратите внимание, однако, что график квантильного прямоугольника Кина (2010) - это просто прямоугольник с усами, доходящими до крайностей. Напротив, квантильные коробчатые участки JMP, очевидно, являются коробчатыми участками с отметками 0,5%, 2,5%, 10%, 90%, 97,5%, 99,5%: см. Sall et al. (2014, с.143-4).

Вот некоторые заметки о вариантах графиков квантильных коробок.

пп,1-п-п,1-п

п,1-п

Из увиденной мною литературы кажется, что ни одна из этих тем - графики квантильных ящиков или более поздние варианты (A) (B) (C) - не ссылаются друг на друга.

!!! по состоянию на 3 октября 2018 года детали для некоторых ссылок должны быть представлены в следующем редактировании.

Альтман Д. Г. 1991. Практическая статистика в медицинских исследованиях. Лондон: Чепмен и Холл.

Бентли, JL 1985 года. Программирование жемчуга: Выбор. Сообщения ACM 28: 1121-1127.

Бентли, JL 1988. Больше программирования жемчужины: исповедь кодера. Чтение, Массачусетс: Аддисон-Уэсли.

Bibby, J. 1986. Примечания к истории преподавания статистики. Эдинбург: Джон Бибби (Книги).

Bowley, AL 1910. Начальное руководство по статистике. Лондон: Макдональд и Эванс. (седьмое издание 1952 г.)

Cleveland, WS 1985. Элементы графического представления данных. Монтерей, Калифорния: Уодсворт.

Кроу, PR 1933. Анализ вероятности осадков: графический метод и его применение к европейским данным. Шотландский географический журнал 49: 73-91.

Кроу, PR 1936. Режим осадков западных равнин. Географическое обозрение 26: 463-484.

Дэвис, JC 2002. Статистика и анализ данных в геологии. Нью-Йорк: Джон Уайли.

Дикинсон, GC 1963. Статистическое картирование и представление статистики. Лондон: Эдвард Арнольд. (второе издание 1973 г.)

Dury, GH 1963. Ист-Мидлендс и Пик. Лондон: Томас Нельсон.

Фермер, BH 1956. Осадки и водоснабжение в сухой зоне Цейлона. В Steel, RW и CA Fisher (eds) Географические очерки о британских тропических землях. Лондон: Джордж Филипп, 227-268.

Грегори, С. 1963. Статистические методы и географ. Лондон: Лонгманс. (более поздние издания 1968, 1973, 1978; издатель позже Longman)

Grove, AT 1956. Эрозия почвы в Нигерии. В Steel, RW и CA Fisher (eds) Географические очерки о британских тропических землях. Лондон: Джордж Филипп, 79-111.

Haemer, KW 1948. Диаграммы линейчатой ​​диаграммы. Американский статистик 2 (2): 23.

Хендри, Д.Ф. и Б. Нильсен. 2007. Эконометрическое моделирование: подход правдоподобия. Принстон, Нью-Джерси: издательство Принстонского университета.

Хогг, WH 1948. Диаграммы рассеивания осадков: обсуждение их достоинств и недостатков. География 33: 31-37.

Ибрекк, Х. и Морган М.Г. 1987. Графическое сообщение неопределенных количеств нетехническим людям. Анализ рисков 7: 519-529.

Джонсон, BLC 1975. Бангладеш. Лондон: Heinemann Educational.

Кин, KJ 2010. Графика для статистики и анализа данных с Р. Бока Ратон, FL: CRC Press. (2-е издание 2018 г.)

Льюис, CR 1975. Анализ изменений в статусе города: тематическое исследование в Среднем Уэльсе и пограничном районе среднего Уэльса. Труды Института британских географов 64: 49-65.

Мартинес, WL, AR Martinez и JL Solka. 2011. Исследовательский анализ данных с помощью MATLAB. Бока-Ратон, Флорида: CRC Press.

Мэтьюз, HA 1936. Новый взгляд на некоторые знакомые индийские дожди. Шотландский географический журнал 52: 84-97.

Мэтьюз, JA 1981. Количественные и статистические подходы к географии: практическое пособие. Оксфорд: Пергамон.

Meloun, M. and J. Militký. 1994. Компьютерная обработка данных в аналитической хемометрии. I. Исследовательский анализ одномерных данных. Chemical Papers 48: 151-157.

Militký, J. и M. Meloun. 1993. Некоторые графические пособия для одномерного анализа поисковых данных. Analytica Chimica Acta 277: 215-221.

Миллер А. А. 1953. Кожа Земли. Лондон: Метуэн. (2-е издание 1964 г.)

Monkhouse, FJ и HR Wilkinson. 1952. Карты и схемы: их составление и построение. Лондон: Метуэн. (более поздние издания 1963, 1971)

Морган М.Г. и М. Генрион. 1990. Неопределенность: Руководство по устранению неопределенности в количественном анализе рисков и политики. Кембридж: издательство Кембриджского университета.

Myatt, GJ 2007. Осмысление данных: практическое руководство по исследовательскому анализу данных и интеллектуальному анализу данных. Хобокен, Нью-Джерси: Джон Уайли.

Myatt, GJ и Johnson, WP 2009. Осмысление данных II: практическое руководство по визуализации данных, расширенным методам интеллектуального анализа данных и приложениям. Хобокен, Нью-Джерси: Джон Уайли.

Myatt, GJ и Johnson, WP 2011. Осмысление данных III: практическое руководство по разработке интерактивных визуализаций данных. Хобокен, Нью-Джерси: Джон Уайли.

Ottaway, B. 1973. Дисперсионные диаграммы: новый подход к отображению дат углерода-14. Археометрия 15: 5-12.

Parzen, E. 1979a. Непараметрическое статистическое моделирование данных. Журнал, Американская статистическая ассоциация 74: 105-121.

Parzen, E. 1979b. Перспектива функции квантили плотности для робастной оценки. В Launer, RL и Г. Н. Уилкинсон (ред.) Робастность в статистике. Нью-Йорк: Academic Press, 237-258.

Парцен, Е. 1982. Моделирование данных с использованием функций квантиля и плотности-квантиля. В Tiago de Oliveira, J. and Epstein, B. (eds) Некоторые последние достижения в области статистики. Лондон: Academic Press, 23-52.

Куинн, GP и MJ Keough. 2002. Экспериментальный дизайн и анализ данных для биологов. Кембридж: издательство Кембриджского университета.

Reimann, C., P. Filzmoser, RG Garrett and R. Dutter. 2008. Объясненный анализ статистических данных: прикладная экологическая статистика с Р. Чичестером: Джон Вили.

Салл Дж., А. Леман, М. Стивенс и Л. Крейтон. 2014. JMP Start Statistics: Руководство по статистике и анализу данных с использованием JMP. Cary, NC: SAS Institute.

Shera, DM 1991. Некоторые виды использования квантильных графиков для улучшения представления данных. Вычислительная наука и статистика 23: 50-53.

Копье, ME 1952. Диаграмма статистики. Нью-Йорк: Макгроу-Хилл.

Копье, ME 1969. Практические методы построения диаграмм. Нью-Йорк: Макгроу-Хилл.

Tukey, JW 1970.
Исследовательский анализ данных. Ограниченная предварительная версия. Том I. Чтение, Массачусетс: Аддисон-Уэсли.

Tukey, JW 1972. Некоторые графические и полуграфические дисплеи. В Bancroft, TA и Brown, SA (ред.) Статистические документы в честь Джорджа У. Снедекора. Эймс, ИА: Издательство Университета Айовы, 293-316. (также доступно по адресу http://www.edwardtufte.com/tufte/tukey )

Тьюки, JW 1977. Исследовательский анализ данных. Чтение, Массачусетс: Аддисон-Уэсли.

Wild, CJ и GAF Seber. 2000. Случайные встречи: первый курс по анализу и выводу данных. Нью-Йорк: Джон Уайли.

Ник Кокс
источник
У меня есть другие материалы о коробочках-процентилях, горных участках и других гибридных формах, которые будут добавлены позже.
Ник Кокс
Очень ценю этот ответ, спасибо Ник - с нетерпением жду дополнений об альтернативах и гибридах. Я думаю, что было бы справедливо сказать, что «коробочные сюжеты» и друзья »образуют« семью »визуализаций данных, хотя я не знаю, как следует называть эту семью
Silverfish
Благодарность! если владение линиями или другими маркерами, обозначающими медиану и квартили, определяет коробку, то были поля с коробками задолго до того, как Тьюки назвал их, и я уверен, что он никогда не утверждал обратное. Тем не менее, многие миниатюрные истории в учебниках и в других местах кажутся решительными в этом вопросе; в основном, это просто мем, повторенный без доказательств, как история о том, что лемминги прыгают со скал как коллективное самоубийство. Многие из альтернатив блочным графикам даже не показывают прямоугольник, поэтому поле широко открыто для включения любого графического представления одномерных распределений.
Ник Кокс