Понимание усов коробочного участка

9

У меня есть вопрос, касающийся интерпретации усов коробочного сюжета. Я прочитал следующее: «В верхней и нижней части прямоугольника« усы »показывают диапазон, в 1,5 раза превышающий расстояние между 0,25 и 0,75 квантилями», но не совсем понимаю, что подразумевается под «расстоянием». ,

Не может быть, что имеется в виду масса вероятности, поскольку между квантилями 0,25 и 0,75 мы, очевидно, всегда имеем одинаковый процент данных. В чем тогда идея?

Guest555
источник

Ответы:

6

Значение X, соответствующее 75 квантилю, минус значение X, соответствующее 25-му, является расстоянием. Например, для теста SAT Math Test 620 - это 75-й, а 520 - 25-й квантиль. Таким образом, если вы набрали более 620 баллов, вы сделали лучше, чем 75% тестируемых. Усы будут расширяться до 1,5 * (620-520) пунктов.

Димитрий Васильевич Мастеров
источник
Хорошо, но тогда усы были бы одинаковой длины с обеих сторон коробки (что не обязательно имеет место).
Guest555
8
+1, (немного больше) полный ответ: усы достигают 1,5 * IQR, если у вас больше нет данных в течение этого интервала, усы останавливаются. Кроме того, любые дополнительные данные, превышающие эту точку, отображаются индивидуально как потенциальные выбросы.
gung - Восстановить Монику
С этим небольшим дополнительным объяснением теперь все понятно, спасибо большое!
Guest555
Я отредактировал ответ с превосходной точкой зрения @ gung.
Дмитрий Васильевич Мастеров
5
@ Gung и еще более полный ответ заключается в том, что усы всегда лежат на существующей точке в данных
Хэдли
4

Блокпост предназначен для суммирования относительно небольшого набора данных таким образом, чтобы

  • Центральная ценность.

  • Распространение «типичных» значений.

  • Отдельные ценности, которые настолько сильно отличаются от центральной ценности по отношению к разбросу, что их выделяют для особого внимания и отдельно идентифицируют (например, по имени). Они называются «идентифицированными ценностями».

Это должно быть сделано надежным способом: это означает, что блокпост не должен выглядеть заметно иначе, когда одно или относительно небольшая часть значений данных изменяется произвольно.

Решение, принятое его изобретателем Джоном Тьюки, заключается в систематическом использовании статистики заказов - данных, отсортированных по убыванию. Для простоты (он делал вычисления мысленно или с карандашом и бумагой) Тьюки сосредоточился на медианах : средние значения групп чисел. (Для партий с четным количеством единиц Тьюки использовал среднюю точку двух средних значений.) Медиана устойчива к изменениям до половины данных, на которых она основана, что делает ее превосходной в качестве надежной статистики. Таким образом:

  • Центральное значение оценивается с медианой всех данных.

  • Спрэд оценивается с разницей между медиан «верхней половины» - все данные , равной или выше среднего - и «нижней половины» - все данные равны или меньше , чем медиана. Эти две медианы называются верхней и нижней «петлями» или «четвертями». В наши дни их, как правило, заменяют вещи, называемые квартилями (которые, увы, не имеют универсального определения).

  • Невидимые заборы для экранирования выбросов устанавливаются в 1,5 и 3 раза больше, чем за пределами петель (вдали от центрального значения).

    • «Значение на каждом конце, ближайшем к внутреннему ограждению, но все еще находящемуся внутри, является« смежным ».»
    • Значения за пределами первого забора называются «выбросами».
    • Значения за вторым забором "далеко".

(Те, кто достаточно взрослый , чтобы помнить хиппи Арго 60-х, поймут шутку.)

Поскольку разброс представляет собой разность значений данных, эти заборы имеют те же единицы измерения, что и исходные данные: в этом вопросе понимается «расстояние».

Что касается значений данных для идентификации, Тьюки написал

Мы можем, по крайней мере, идентифицировать экстремальные значения, и могли бы преуспеть, чтобы идентифицировать еще несколько.

Любой графический метод для отображения медианы, шарниров и идентифицированных значений, вероятно, заслуживает того, чтобы называться «коробчатым графиком» (первоначально, «сюжет с рамками и усами»). Заборы обычно не изображены. Дизайн Тьюки состоит из прямоугольника, описывающего шарниры с «талией» на медиане. Ненавязчивые линейные «усы» простираются от петель к самым внутренним идентифицированным значениям (как над, так и под рамкой). Обычно эти самые внутренние идентифицированные значения являются смежными значениями, определенными выше.

Следовательно, внешний вид коробчатого графика по умолчанию состоит в том, чтобы распространять усы на наиболее экстремальные непостоянные значения данных и идентифицировать (посредством текстовых меток) данные, содержащие концы усов и все выбросы. Например, вулкан Тупунгатито - это высокое смежное значение для данных о высоте вулкана, изображенных справа на рисунке: усы на этом останавливаются. Тупунгатито и все более высокие вулканы идентифицированы отдельно.

Чтобы данные отображались достоверно, расстояние на графике пропорционально разнице в значениях данных. (Любое отклонение от прямой пропорциональности вводит «Фактор Лжи» в терминологии Туфте (1983).)

Рисунок из EDA

Эти два коробочных графика из книги Тьюки EDA (стр. 41) иллюстрируют компоненты. Примечательно, что он идентифицировал непрямые значения в верхнем и нижнем краях набора данных состояний слева и одно низкое непостоянное значение высот вулкана справа. Это иллюстрирует взаимодействие правил и суждений, которые пронизывают книгу.

(Вы можете сказать, что эти идентифицированные данные не являются отдаленными, потому что вы можете оценить расположение заборов. Например, петли высот состояний около 11 000 и 1 000, что дает разброс около 10 000. Умножение на 1,5 и 3 дает расстояния 15 000 и 30 000. Таким образом, невидимая верхняя изгородь должна быть около 11 000 + 15 000 = 26 000, а нижняя изгородь, в 1000 - 15 000, будет ниже нуля. Дальние заборы будут около 11 000 + 30 000 = 41 000 и 1000 - 30 000 = -29000).


Ссылки

Туфте, Эдвард. Визуальное отображение количественной информации. Чешир Пресс, 1983.

Тьюки, Джон. Глава 2, EDA . Аддисон-Уэсли, 1977.

Whuber
источник