Стандартным определением выброса для графика Бокса и Вискера являются точки вне диапазона , где I Q R = Q 3 - Q 1, а Q 1 - первый квартиль и Q 3 - третий квартиль данных.
На чем основано это определение? При большом количестве точек даже совершенно нормальное распределение возвращает выбросы.
Например, предположим, что вы начинаете с последовательности:
xseq<-seq(1-.5^1/4000,.5^1/4000, by = -.00025)
Эта последовательность создает процентиль ранжирования 4000 точек данных.
Проверка нормальности для qnorm
этой серии приводит к:
shapiro.test(qnorm(xseq))
Shapiro-Wilk normality test
data: qnorm(xseq)
W = 0.99999, p-value = 1
ad.test(qnorm(xseq))
Anderson-Darling normality test
data: qnorm(xseq)
A = 0.00044273, p-value = 1
Результаты в точности соответствуют ожидаемым: нормальное нормальное распределение нормальное. Создание qqnorm(qnorm(xseq))
создает (как и ожидалось) прямую линию данных:
Если создается блокпост с теми же данными, boxplot(qnorm(xseq))
выдает результат:
Boxplot, в отличие от shapiro.test
, ad.test
или qqnorm
идентифицирует несколько точек , как при отклоняющихся значений размер выборки достаточно велик (как в этом примере).
Ответы:
присущи рефлективный, вербальный
Вот соответствующий раздел Hoaglin, Mosteller and Tukey (2000): Понимание надежного и разведочного анализа данных. Wiley . Глава 3 «Бокплоты и пакетное сравнение», написанная Джоном Д. Эмерсоном и Джудит Стренио (со стр. 62):
Они идут и показывают приложение гауссовскому населению (стр. 63):
Так
Далее пишут
Они предоставляют таблицу с ожидаемой долей значений, которые выходят за пределы выбросов (помеченные как «Total% Out»):
Таким образом, эти пороговые значения никогда не были строгим правилом относительно того, какие точки данных являются выбросами или нет. Как вы заметили, ожидается, что даже идеальное нормальное распределение будет демонстрировать «выбросы» в коробочном графике.
Выпадающие
Насколько я знаю, не существует общепринятого определения выброса. Мне нравится определение Хокинса (1980):
В идеале, вы должны рассматривать точки данных как выбросы только после того, как поймете, почему они не принадлежат остальным данным. Простое правило не достаточно. Хорошее лечение выбросов можно найти в Aggarwal (2013).
Ссылки
Aggarwal CC (2013): Анализ выбросов. Springer.
Хокинс Д. (1980): идентификация выбросов. Чепмен и Холл.
Hoaglin, Mosteller and Tukey (2000): понимание надежного и разведочного анализа данных. Wiley.
источник
Предполагается, что слово «выброс» часто означает что-то вроде «значения данных, которое является ошибочным, вводящим в заблуждение, ошибочным или ошибочным и поэтому должно быть исключено из анализа», но это не то, что Тьюки имел в виду при использовании выброса. Выбросы - это просто точки, которые находятся далеко от медианы набора данных.
Ваше мнение об ожидаемых выбросах во многих наборах данных является правильным и важным. И есть много хороших вопросов и ответов по теме.
Удаление выбросов из асимметричных данных
Целесообразно ли выявлять и удалять выбросы, потому что они вызывают проблемы?
источник
Как и во всех методах обнаружения выбросов, необходимо тщательно продумать и определить, какие значения действительно являются выбросами. Я думаю, что коробочный график просто обеспечивает хорошую визуализацию распространения данных, и любые истинные выбросы будет легко уловить.
источник
Я думаю, что вы должны быть обеспокоены, если вы не получите некоторые выбросы как часть нормального распределения, в противном случае, возможно, вам следует искать причины, которых нет. Ясно, что они должны быть проверены, чтобы убедиться, что они не записывают ошибки, но в противном случае их следует ожидать.
источник