Многие источники датируют классический дизайн «коробочного сюжета» Джоном Тьюки и его «схематическим сюжетом» 1970 года. С тех пор дизайн, кажется, оставался относительно статичным, так как урезанная версия Эдварда Туфте с сюжетной коробкой оказалась не в состоянии завоевать популярность, в то время как сюжеты для скрипки - хотя и более информативный вариант рамочного сюжета - остаются менее популярными. Предложение Кливленда о том, что усы распространяются на 10 и 90 процентили, имеет некоторых сторонников, см. Cox (2009) , но не является нормой.
Хэдли Уикхем и Лиза Стриевски написали неопубликованную статью по истории коробочных сюжетов, но, похоже, она не охватывает исторических предшественников коробочных сюжетов.
Так как же появился нынешний, вездесущий сюжет «коробка и усы»? Из какого вида визуализации данных она развивалась, имели ли эти более ранние разработки какие-либо существенные преимущества, и почему они, по-видимому, столь полно затмевались при использовании схемы Тьюки? Иллюстрированный ответ был бы бонусом, но было бы полезно обратиться к ссылке, которая исторически погружается глубже, чем Уикхем и Стриевский.
Ссылки
- Кокс, Нью-Джерси (2009). Speaking Stata: Создание и изменение рамок. Stata Journal , 9 (3), 478.
- Wickham H. and Stryjewski L. (2011). 40 лет боксплотов. http://vita.had.co.nz/papers/boxplots.pdf
site:stats.stackexchange.com
набором, чтобы отслеживать вещи в комментариях. Я смог вспомнить достаточно подробностей (это была дискуссия между Ником и мной, касающаяся коробочных сюжетов, и что я упомянул Шмида), чтобы получить первый удар.Ответы:
Резюме генерального директора
История намного длиннее и сложнее, чем думают многие.
Управляющее резюме
История того, что Тьюки называл коробчатыми диаграммами, запутана с историей того, что сейчас часто называют точечными или полосчатыми диаграммами (десятки других имен), и представлениями эмпирической функции квантиля.
Коробочные сюжеты в широко распространенных формах наиболее известны благодаря работе Джона Уайлдера Тьюки (1970, 1972, 1977).
Но идея показа медианы и квартилей в качестве основных сводок - часто вместе, но не всегда, с точками, показывающими все значения - восходит, по крайней мере, к диаграммам рассеяния (много вариантов названий), представленным географом Перси Робертом Кроу (1933). Они были основной платой для географов и использовались во многих учебниках, а также в научных трудах с конца 1930-х годов.
Бибби (1986, с.56, 59) дал еще более ранние ссылки на подобные идеи, которым учил Артур Лайон Боули (позднее сэр Артур) в своих лекциях о 1897 году, и на его рекомендации (Bowley, 1910, с.62; 1952, с.73 ) использовать минимальные и максимальные и 10, 25, 50, 75 и 90% баллов в качестве основы для графического резюме.
Диапазоны, показывающие крайности и квартили, часто приписывают Мэри Элеоноре Спир (1952), но в моем чтении меньше людей цитируют Кеннета У. Хэмера (1948). Статьи Гемера о статистической графике, опубликованные американским статистиком в 1950 году, были изобретательными, имели критический смысл и по-прежнему заслуживают перечитывания. (Многие читатели смогут получить к ним доступ через jstor.org.) В отличие от этого, книги Спир (Spear 1969 - перефразировка) были доступными и осмысленными, но намеренно вводными, а не новаторскими или научными.
Варианты коробочных графиков, в которых усы распространяются на выбранные процентили, встречаются чаще, чем кажется многим. Опять же, эквивалентные участки использовались географами с 1930-х годов.
То, что является наиболее оригинальным в версии блочных графиков Тьюки, это, прежде всего, критерии для определения точек в хвостах, которые должны быть нанесены отдельно и идентифицированы как заслуживающие подробного рассмотрения, и как часто отмечающие, что переменная должна быть проанализирована в преобразованном масштабе. Его эмпирическое правило 1,5 IQR появилось только после долгих экспериментов. В некоторых руках он превратился в жесткое правило для удаления точек данных, что никогда не было целью Тьюки. Резкое, запоминающееся имя - сюжет коробки - не повредило в обеспечении гораздо более широкого воздействия этих идей. Дисперсионная диаграмма, напротив, довольно скучный и унылый термин.
Довольно длинный список ссылок здесь, возможно, вопреки внешнему виду, не является исчерпывающим. Цель состоит в том, чтобы просто предоставить документацию для некоторых прекурсоров и альтернатив для участка. Конкретные ссылки могут быть полезны для подробных запросов или если они находятся близко к вашей области. И наоборот, изучение практики в других областях может быть полезным. Графический, а не только картографический, опыт географов часто недооценивают.
Подробнее
Гибридные точечные графики использовались Кроу (1933, 1936), Мэтьюзом (1936), Хоггом (1948), Монкхаусом и Уилкинсоном (1952), Фармером (1956), Грегори (1963), Хаммондом и МакКаллахом (1974), Льюисом. (1975), Matthews (1981), Wilkinson (1992, 2005), Ellison (1993, 2001), Wild and Seber (2000), Quinn и Keough (2002), Young et al. (2006) и Хендри и Нильсен (2007) и многие другие. См. Также Миллер (1953, 1964).
Кливленд (1985) подчеркивал, что рисование усов в определенных процентилях, а не в точках данных в пределах столь большого количества IQR квартилей, было ожидаемым Мэтьюзом (1936) и Гроувом (1956), которые строили межцитильный диапазон, означая между первым и первым. седьмой октил, а также ассортимент и межквартильный размах. Dury (1963), Johnson (1975), Harris (1999), Myatt (2007), Myatt and Johnson (2009, 2011) и Davino et al. (2014) показал среднее, а также минимум, квартили, медиану и максимум. Шмид (1954) показал сводные графики с медианой, квартилями и точками 5 и 95%. Bentley (1985, 1988), Davis (2002), Spence (2007, 2014) и Motulsky (2010, 2014, 2018) нанесли усы на 5 и 95%. Морган и Генрион (1990, с. 221, 241), Спенс (2001, с. 36) и Готелли и Эллисон (2004, 2013, с. 72, 110, 213, 416) наносил усы на 10% и 90% баллов. Харрис (1999) показал примеры как 5 и 95%, так и 10 и 90% баллов. Altman (1991, с. 34, 63) и Greenacre (2016) нанесли на усы 2,5% и 97,5%. Рейман и соавт. (2008, с.46-47) нанесли усы на 5% и 95%, а также на 2% и 98%.
Parzen (1979a, 1979b, 1982) гибридизировал коробчатые и квантильные участки как участки квантильных коробок. См. Также (например) Shera (1991), Militký and Meloun (1993), Meloun и Militký (1994). Обратите внимание, однако, что график квантильного прямоугольника Кина (2010) - это просто прямоугольник с усами, доходящими до крайностей. Напротив, квантильные коробчатые участки JMP, очевидно, являются коробчатыми участками с отметками 0,5%, 2,5%, 10%, 90%, 97,5%, 99,5%: см. Sall et al. (2014, с.143-4).
Вот некоторые заметки о вариантах графиков квантильных коробок.
Из увиденной мною литературы кажется, что ни одна из этих тем - графики квантильных ящиков или более поздние варианты (A) (B) (C) - не ссылаются друг на друга.
!!! по состоянию на 3 октября 2018 года детали для некоторых ссылок должны быть представлены в следующем редактировании.
Альтман Д. Г. 1991. Практическая статистика в медицинских исследованиях. Лондон: Чепмен и Холл.
Бентли, JL 1985 года. Программирование жемчуга: Выбор. Сообщения ACM 28: 1121-1127.
Бентли, JL 1988. Больше программирования жемчужины: исповедь кодера. Чтение, Массачусетс: Аддисон-Уэсли.
Bibby, J. 1986. Примечания к истории преподавания статистики. Эдинбург: Джон Бибби (Книги).
Bowley, AL 1910. Начальное руководство по статистике. Лондон: Макдональд и Эванс. (седьмое издание 1952 г.)
Cleveland, WS 1985. Элементы графического представления данных. Монтерей, Калифорния: Уодсворт.
Кроу, PR 1933. Анализ вероятности осадков: графический метод и его применение к европейским данным. Шотландский географический журнал 49: 73-91.
Кроу, PR 1936. Режим осадков западных равнин. Географическое обозрение 26: 463-484.
Дэвис, JC 2002. Статистика и анализ данных в геологии. Нью-Йорк: Джон Уайли.
Дикинсон, GC 1963. Статистическое картирование и представление статистики. Лондон: Эдвард Арнольд. (второе издание 1973 г.)
Dury, GH 1963. Ист-Мидлендс и Пик. Лондон: Томас Нельсон.
Фермер, BH 1956. Осадки и водоснабжение в сухой зоне Цейлона. В Steel, RW и CA Fisher (eds) Географические очерки о британских тропических землях. Лондон: Джордж Филипп, 227-268.
Грегори, С. 1963. Статистические методы и географ. Лондон: Лонгманс. (более поздние издания 1968, 1973, 1978; издатель позже Longman)
Grove, AT 1956. Эрозия почвы в Нигерии. В Steel, RW и CA Fisher (eds) Географические очерки о британских тропических землях. Лондон: Джордж Филипп, 79-111.
Haemer, KW 1948. Диаграммы линейчатой диаграммы. Американский статистик 2 (2): 23.
Хендри, Д.Ф. и Б. Нильсен. 2007. Эконометрическое моделирование: подход правдоподобия. Принстон, Нью-Джерси: издательство Принстонского университета.
Хогг, WH 1948. Диаграммы рассеивания осадков: обсуждение их достоинств и недостатков. География 33: 31-37.
Ибрекк, Х. и Морган М.Г. 1987. Графическое сообщение неопределенных количеств нетехническим людям. Анализ рисков 7: 519-529.
Джонсон, BLC 1975. Бангладеш. Лондон: Heinemann Educational.
Кин, KJ 2010. Графика для статистики и анализа данных с Р. Бока Ратон, FL: CRC Press. (2-е издание 2018 г.)
Льюис, CR 1975. Анализ изменений в статусе города: тематическое исследование в Среднем Уэльсе и пограничном районе среднего Уэльса. Труды Института британских географов 64: 49-65.
Мартинес, WL, AR Martinez и JL Solka. 2011. Исследовательский анализ данных с помощью MATLAB. Бока-Ратон, Флорида: CRC Press.
Мэтьюз, HA 1936. Новый взгляд на некоторые знакомые индийские дожди. Шотландский географический журнал 52: 84-97.
Мэтьюз, JA 1981. Количественные и статистические подходы к географии: практическое пособие. Оксфорд: Пергамон.
Meloun, M. and J. Militký. 1994. Компьютерная обработка данных в аналитической хемометрии. I. Исследовательский анализ одномерных данных. Chemical Papers 48: 151-157.
Militký, J. и M. Meloun. 1993. Некоторые графические пособия для одномерного анализа поисковых данных. Analytica Chimica Acta 277: 215-221.
Миллер А. А. 1953. Кожа Земли. Лондон: Метуэн. (2-е издание 1964 г.)
Monkhouse, FJ и HR Wilkinson. 1952. Карты и схемы: их составление и построение. Лондон: Метуэн. (более поздние издания 1963, 1971)
Морган М.Г. и М. Генрион. 1990. Неопределенность: Руководство по устранению неопределенности в количественном анализе рисков и политики. Кембридж: издательство Кембриджского университета.
Myatt, GJ 2007. Осмысление данных: практическое руководство по исследовательскому анализу данных и интеллектуальному анализу данных. Хобокен, Нью-Джерси: Джон Уайли.
Myatt, GJ и Johnson, WP 2009. Осмысление данных II: практическое руководство по визуализации данных, расширенным методам интеллектуального анализа данных и приложениям. Хобокен, Нью-Джерси: Джон Уайли.
Myatt, GJ и Johnson, WP 2011. Осмысление данных III: практическое руководство по разработке интерактивных визуализаций данных. Хобокен, Нью-Джерси: Джон Уайли.
Ottaway, B. 1973. Дисперсионные диаграммы: новый подход к отображению дат углерода-14. Археометрия 15: 5-12.
Parzen, E. 1979a. Непараметрическое статистическое моделирование данных. Журнал, Американская статистическая ассоциация 74: 105-121.
Parzen, E. 1979b. Перспектива функции квантили плотности для робастной оценки. В Launer, RL и Г. Н. Уилкинсон (ред.) Робастность в статистике. Нью-Йорк: Academic Press, 237-258.
Парцен, Е. 1982. Моделирование данных с использованием функций квантиля и плотности-квантиля. В Tiago de Oliveira, J. and Epstein, B. (eds) Некоторые последние достижения в области статистики. Лондон: Academic Press, 23-52.
Куинн, GP и MJ Keough. 2002. Экспериментальный дизайн и анализ данных для биологов. Кембридж: издательство Кембриджского университета.
Reimann, C., P. Filzmoser, RG Garrett and R. Dutter. 2008. Объясненный анализ статистических данных: прикладная экологическая статистика с Р. Чичестером: Джон Вили.
Салл Дж., А. Леман, М. Стивенс и Л. Крейтон. 2014. JMP Start Statistics: Руководство по статистике и анализу данных с использованием JMP. Cary, NC: SAS Institute.
Shera, DM 1991. Некоторые виды использования квантильных графиков для улучшения представления данных. Вычислительная наука и статистика 23: 50-53.
Копье, ME 1952. Диаграмма статистики. Нью-Йорк: Макгроу-Хилл.
Копье, ME 1969. Практические методы построения диаграмм. Нью-Йорк: Макгроу-Хилл.
Tukey, JW 1970.
Исследовательский анализ данных. Ограниченная предварительная версия. Том I. Чтение, Массачусетс: Аддисон-Уэсли.
Tukey, JW 1972. Некоторые графические и полуграфические дисплеи. В Bancroft, TA и Brown, SA (ред.) Статистические документы в честь Джорджа У. Снедекора. Эймс, ИА: Издательство Университета Айовы, 293-316. (также доступно по адресу http://www.edwardtufte.com/tufte/tukey )
Тьюки, JW 1977. Исследовательский анализ данных. Чтение, Массачусетс: Аддисон-Уэсли.
Wild, CJ и GAF Seber. 2000. Случайные встречи: первый курс по анализу и выводу данных. Нью-Йорк: Джон Уайли.
источник