Существует ли вариант коробчатого графика для распределенных данных Пуассона?

33

Я хотел бы знать, есть ли вариант коробочного графика, адаптированный к распределенным данным Пуассона (или, возможно, другим дистрибутивам)?

При гауссовском распределении, с усами, расположенными при L = Q1 - 1,5 IQR и U = Q3 + 1,5 IQR, у боксплотта есть свойство, что будет примерно столько же низких выбросов (точек ниже L), сколько и высоких выбросов (точек выше U ).

Однако, если данные распределены по Пуассону, это больше не выполняется из-за положительной асимметрии, которую мы получаем Pr (X <L) <Pr (X> U) . Есть ли альтернативный способ размещения усов так, чтобы они «подходили» к распределению Пуассона?

CAAS
источник
2
Попробуйте сначала войти? Вы также можете сказать, что вы хотите, чтобы ваш бокс-лист был «хорошо адаптирован».
сопряженный
2
Есть одна проблема с такой модификацией - люди привыкли к стандартному определению коробочного графика и, скорее всего, примут его, глядя на график, нравится вам это или нет. Таким образом, это может принести больше путаницы, чем выгоды.
@mbq:> с боксплотами они объединяют две функции в одном инструменте; функция визуализации данных (коробка) и функция обнаружения выбросов (усы). То, что вы говорите, абсолютно верно в отношении первого, но позднее можно использовать настройку перекоса.
user603
@conjugateprior Вот пример Пуассона: 0, 0, 1, 0, 1, 2, 0, 0, 1, 0, 0 .... замечаете проблему с простыми регистрациями?
Glen_b
@Glen_b Наверное, поэтому это комментарий, а не ответ. И почему он состоит из двух частей.
конъюнктурный

Ответы:

31

Боксплоты не были предназначены для обеспечения малой вероятности превышения концов усов во всех случаях: они предназначены и обычно используются как простые графические характеристики массива данных. Таким образом, они хороши, даже когда данные имеют очень искаженные распределения (хотя они могут не раскрывать такую ​​информацию, как о примерно не скошенных распределениях).

Когда коробочные диаграммы становятся искаженными, как это происходит с распределением Пуассона, следующим шагом является повторное выражение базовой переменной (с монотонной, возрастающей трансформацией) и перерисовка коробочных диаграмм. Поскольку дисперсия распределения Пуассона пропорциональна его среднему значению, хорошим преобразованием для использования является квадратный корень.

Каждый блок-график изображает 50 рисунков из распределения Пуассона с заданной интенсивностью (от 1 до 10, с двумя испытаниями для каждой интенсивности). Обратите внимание, что асимметрия имеет тенденцию быть низкой.

бок о бок боксы

Одни и те же данные в масштабе квадратного корня имеют тенденцию иметь немного более симметричные коробочные диаграммы и (за исключением самой низкой интенсивности) иметь приблизительно равные IQR независимо от интенсивности).

боксы преобразованных данных

В общем, не меняйте алгоритм boxplot: вместо этого повторно выражайте данные.


Между прочим, соответствующие шансы для вычислений таковы: какова вероятность того, что независимая нормальная переменная превысит верхнюю (нижнюю) границу U ( L ), как оценивается из n независимых выборок из того же распределения? ИксULN Это объясняет тот факт, что заборы в коробчатом графике не рассчитываются из базового распределения, а оцениваются по данным. В большинстве случаев шансы намного превышают 1%! Например, здесь (на основе 10 000 испытаний Монте-Карло) приведена гистограмма вероятностей логарифма (база 10) для случая :Nзнак равно9

гистограмма шансов

(Поскольку нормальное распределение является симметричным, эта гистограмма применяется к обоим заборам.) Логарифм 1% / 2 составляет около -2,3. Ясно, что в большинстве случаев вероятность больше, чем эта. Примерно в 16% случаев это превышает 10%!

Оказывается (я не буду загромождать этот ответ деталями), что распределения этих шансов сопоставимы с нормальным случаем (для малых ) даже для пуассоновских распределений интенсивности всего 1, что довольно искажено. Основное различие заключается в том, что обычно меньше вероятность найти низкий выброс и немного больше вероятность найти высокий выброс.N

Whuber
источник
1
+1, я не видел эту тему раньше. Я высказал (я полагаю) ту же мысль, которая обсуждается здесь после горизонтального правила другим способом в этом посте: удалять ли случаи, помеченные как выбросы статистическим программным обеспечением .
gung - Восстановить Монику
Да, это то же самое, @ gung - и вы опубликовали там хороший ответ.
whuber
26

Я знаю обобщение стандартных коробочных графиков, в которых длины усов корректируются для учета искаженных данных. Детали лучше объясняются в очень четкой и краткой белой книге (Vandervieren, E., Hubert, M. (2004) «Скорректированный коробочный график для искаженных распределений», см. Здесь ).

рrobustbase :: adjbox ()Весы

Я лично считаю, что это лучшая альтернатива преобразованию данных (хотя оно также основано на специальном правиле, см. Технический документ).

Между прочим, я обнаружил, что мне есть, что добавить к примеру с Уубером. В той мере, в которой мы обсуждаем поведение усов, мы действительно должны также учитывать, что происходит при рассмотрении загрязненных данных:

library(robustbase)
A0 <- rnorm(100)
A1 <- runif(20, -4.1, -4)
A2 <- runif(20,  4,    4.1)
B1 <- exp(c(A0, A1[1:10], A2[1:10]))
boxplot(sqrt(B1), col="red", main="un-adjusted boxplot of square root of data")
adjbox(      B1,  col="red", main="adjusted boxplot of data")

В этой модели загрязнения B1 имеет, по существу, логарифмическое нормальное распределение, за исключением 20 процентов данных, которые являются наполовину левыми, наполовину правыми выбросами (точка разрыва в соседних ячейках такая же, как и в случае обычных коробочных диаграмм, то есть предполагается, что самое большее 25 процентов данных могут быть плохими).

На графиках изображены классические коробчатые диаграммы преобразованных данных (с использованием преобразования квадратного корня)

классический boxplot на преобразование данных квадратного корня

и скорректированный блок-график нетрансформированных данных.

скорректированный блок-график не преобразованных данных

По сравнению с откорректированными коробочными диаграммами первый вариант маскирует реальные выбросы и маркирует хорошие данные как выбросы. В целом, будет удастся скрыть любые доказательства асимметрии в данных, классифицируя оскорбительные точки как выбросы.

В этом примере подход использования стандартного блочного графика в корне квадратном из данных находит 13 выбросов (все справа), тогда как скорректированный блок-график находит 10 правых и 14 левых выбросов.

РЕДАКТИРОВАТЬ: скорректированные участки коробки в двух словах.

На «классических» бокс-плотах усы размещаются по адресу:

Q1Q3

Q1Q3

Это практическое правило является специальным: обоснование состоит в том, что если незагрязненная часть данных является приблизительно гауссовой, то менее 1% хороших данных будет классифицировано как плохие с использованием этого правила.

Слабость этого правила ограждения, как указывает OP, заключается в том, что длина двух усов идентична, то есть правило ограждения имеет смысл, только если незагрязненная часть данных имеет симметричное распределение.

Популярный подход заключается в том, чтобы сохранить правило забора и адаптировать данные. Идея состоит в том, чтобы преобразовать данные, используя некоторое корректирующее монотонное преобразование (квадратный корень или лог или, в более общем случае, преобразования Бокса-Кокса). Это несколько запутанный подход: он основан на круговой логике (преобразование должно быть выбрано так, чтобы исправить асимметрию незагрязненной части данных, которая на данном этапе ненаблюдаема) и имеет тенденцию затруднять интерпретацию данных. визуально. В любом случае, это остается странной процедурой, при которой кто-то изменяет данные, чтобы сохранить то, что в конце концов является специальным правилом.

Альтернатива состоит в том, чтобы оставить данные нетронутыми и изменить правило вискера. Настроенный блок-график позволяет изменять длину каждого вискера в соответствии с индексом, измеряющим асимметрию незагрязненной части данных:

Q1ехр(M,α)Q3ехр(M,β)

Mα β

M0

MMαβ

Q1ехр(-4M)Q3ехр(3M)M0

Q1ехр(-3M)Q3ехр(4M)M<0

user603
источник
1
Мне было бы интересно узнать, как вы находите мой пример «бесполезным» - просто рекламировать его как таковой не конструктивно. Я признаю, что этот пример несколько разочаровывает в том смысле, что преобразование данных не представляет собой впечатляющего улучшения. Это вина распределений Пуассона: они просто не достаточно искажены, чтобы оправдать весь этот анализ!
whuber
@whuber:> во-первых, извините за тон: он был из неотредактированного первого черновика, и он был исправлен (я обычно пишу сокращенные абзацы, обозначенные как примечание к себе, затем многократно просматриваю их - этот был потерян в долгий запутанный ответ). Теперь для самого критика: ваш пример отображает поведение решения с использованием преобразования в случае незагрязненных данных. ИМХО, правило вискера должно быть - возможно, предварительно - оценено с учетом модели загрязнения.
user603
@user Спасибо за разъяснения. Я не возражаю против критики, которая интересна, и я ценю ссылки на скорректированные боксы. (+1)
whuber
Я согласен с user603, что есть разница в том, проверяете ли вы чистый дистрибутив (например, в ответе whubers) или имеете данные из дистрибутива плюс некоторые выбросы (обсуждаемые здесь как загрязнение ). С моей точки зрения, в реальных настройках для сканирования выбросов используется боксплот. Следовательно, анализ коробочных участков, в котором пропущены выбросы, почему-то упускает из виду. Следовательно, этот ответ, по-видимому, лучше подходит для использования коробочных участков.
Хенрик
2
@Henrik Выявление выбросов - это только одна из многих целей боксплотов. Подход Тьюки был первым, чтобы найти соответствующее повторное выражение данных, которое сделало середину их распределения приблизительно симметричной. Это устраняет необходимость каких-либо поправок на асимметрию. Это уже многое делает с точки зрения сопоставления боксов, где они становятся действительно полезными. «Регулировка» усов полностью упускает из виду этот фундаментальный вопрос. Поэтому я бы с осторожностью использовал корректировку: ее необходимость - сигнал о том, что анализ не выполняется хорошо.
whuber