У меня есть вопрос, касающийся интерпретации усов коробочного сюжета. Я прочитал следующее: «В верхней и нижней части прямоугольника« усы »показывают диапазон, в 1,5 раза превышающий расстояние между 0,25 и 0,75 квантилями», но не совсем понимаю, что подразумевается под «расстоянием». ,
Не может быть, что имеется в виду масса вероятности, поскольку между квантилями 0,25 и 0,75 мы, очевидно, всегда имеем одинаковый процент данных. В чем тогда идея?
источник
Блокпост предназначен для суммирования относительно небольшого набора данных таким образом, чтобы
Центральная ценность.
Распространение «типичных» значений.
Отдельные ценности, которые настолько сильно отличаются от центральной ценности по отношению к разбросу, что их выделяют для особого внимания и отдельно идентифицируют (например, по имени). Они называются «идентифицированными ценностями».
Это должно быть сделано надежным способом: это означает, что блокпост не должен выглядеть заметно иначе, когда одно или относительно небольшая часть значений данных изменяется произвольно.
Решение, принятое его изобретателем Джоном Тьюки, заключается в систематическом использовании статистики заказов - данных, отсортированных по убыванию. Для простоты (он делал вычисления мысленно или с карандашом и бумагой) Тьюки сосредоточился на медианах : средние значения групп чисел. (Для партий с четным количеством единиц Тьюки использовал среднюю точку двух средних значений.) Медиана устойчива к изменениям до половины данных, на которых она основана, что делает ее превосходной в качестве надежной статистики. Таким образом:
Центральное значение оценивается с медианой всех данных.
Спрэд оценивается с разницей между медиан «верхней половины» - все данные , равной или выше среднего - и «нижней половины» - все данные равны или меньше , чем медиана. Эти две медианы называются верхней и нижней «петлями» или «четвертями». В наши дни их, как правило, заменяют вещи, называемые квартилями (которые, увы, не имеют универсального определения).
Невидимые заборы для экранирования выбросов устанавливаются в 1,5 и 3 раза больше, чем за пределами петель (вдали от центрального значения).
(Те, кто достаточно взрослый , чтобы помнить хиппи Арго 60-х, поймут шутку.)
Поскольку разброс представляет собой разность значений данных, эти заборы имеют те же единицы измерения, что и исходные данные: в этом вопросе понимается «расстояние».
Что касается значений данных для идентификации, Тьюки написал
Любой графический метод для отображения медианы, шарниров и идентифицированных значений, вероятно, заслуживает того, чтобы называться «коробчатым графиком» (первоначально, «сюжет с рамками и усами»). Заборы обычно не изображены. Дизайн Тьюки состоит из прямоугольника, описывающего шарниры с «талией» на медиане. Ненавязчивые линейные «усы» простираются от петель к самым внутренним идентифицированным значениям (как над, так и под рамкой). Обычно эти самые внутренние идентифицированные значения являются смежными значениями, определенными выше.
Следовательно, внешний вид коробчатого графика по умолчанию состоит в том, чтобы распространять усы на наиболее экстремальные непостоянные значения данных и идентифицировать (посредством текстовых меток) данные, содержащие концы усов и все выбросы. Например, вулкан Тупунгатито - это высокое смежное значение для данных о высоте вулкана, изображенных справа на рисунке: усы на этом останавливаются. Тупунгатито и все более высокие вулканы идентифицированы отдельно.
Чтобы данные отображались достоверно, расстояние на графике пропорционально разнице в значениях данных. (Любое отклонение от прямой пропорциональности вводит «Фактор Лжи» в терминологии Туфте (1983).)
Эти два коробочных графика из книги Тьюки EDA (стр. 41) иллюстрируют компоненты. Примечательно, что он идентифицировал непрямые значения в верхнем и нижнем краях набора данных состояний слева и одно низкое непостоянное значение высот вулкана справа. Это иллюстрирует взаимодействие правил и суждений, которые пронизывают книгу.
(Вы можете сказать, что эти идентифицированные данные не являются отдаленными, потому что вы можете оценить расположение заборов. Например, петли высот состояний около 11 000 и 1 000, что дает разброс около 10 000. Умножение на 1,5 и 3 дает расстояния 15 000 и 30 000. Таким образом, невидимая верхняя изгородь должна быть около 11 000 + 15 000 = 26 000, а нижняя изгородь, в 1000 - 15 000, будет ниже нуля. Дальние заборы будут около 11 000 + 30 000 = 41 000 и 1000 - 30 000 = -29000).
Ссылки
Туфте, Эдвард. Визуальное отображение количественной информации. Чешир Пресс, 1983.
Тьюки, Джон. Глава 2, EDA . Аддисон-Уэсли, 1977.
источник