Я хотел бы знать, есть ли вариант коробочного графика, адаптированный к распределенным данным Пуассона (или, возможно, другим дистрибутивам)?
При гауссовском распределении, с усами, расположенными при L = Q1 - 1,5 IQR и U = Q3 + 1,5 IQR, у боксплотта есть свойство, что будет примерно столько же низких выбросов (точек ниже L), сколько и высоких выбросов (точек выше U ).
Однако, если данные распределены по Пуассону, это больше не выполняется из-за положительной асимметрии, которую мы получаем Pr (X <L) <Pr (X> U) . Есть ли альтернативный способ размещения усов так, чтобы они «подходили» к распределению Пуассона?
Ответы:
Боксплоты не были предназначены для обеспечения малой вероятности превышения концов усов во всех случаях: они предназначены и обычно используются как простые графические характеристики массива данных. Таким образом, они хороши, даже когда данные имеют очень искаженные распределения (хотя они могут не раскрывать такую информацию, как о примерно не скошенных распределениях).
Когда коробочные диаграммы становятся искаженными, как это происходит с распределением Пуассона, следующим шагом является повторное выражение базовой переменной (с монотонной, возрастающей трансформацией) и перерисовка коробочных диаграмм. Поскольку дисперсия распределения Пуассона пропорциональна его среднему значению, хорошим преобразованием для использования является квадратный корень.
Каждый блок-график изображает 50 рисунков из распределения Пуассона с заданной интенсивностью (от 1 до 10, с двумя испытаниями для каждой интенсивности). Обратите внимание, что асимметрия имеет тенденцию быть низкой.
Одни и те же данные в масштабе квадратного корня имеют тенденцию иметь немного более симметричные коробочные диаграммы и (за исключением самой низкой интенсивности) иметь приблизительно равные IQR независимо от интенсивности).
В общем, не меняйте алгоритм boxplot: вместо этого повторно выражайте данные.
Между прочим, соответствующие шансы для вычислений таковы: какова вероятность того, что независимая нормальная переменная превысит верхнюю (нижнюю) границу U ( L ), как оценивается из n независимых выборок из того же распределения?Икс U L N Это объясняет тот факт, что заборы в коробчатом графике не рассчитываются из базового распределения, а оцениваются по данным. В большинстве случаев шансы намного превышают 1%! Например, здесь (на основе 10 000 испытаний Монте-Карло) приведена гистограмма вероятностей логарифма (база 10) для случая :n = 9
(Поскольку нормальное распределение является симметричным, эта гистограмма применяется к обоим заборам.) Логарифм 1% / 2 составляет около -2,3. Ясно, что в большинстве случаев вероятность больше, чем эта. Примерно в 16% случаев это превышает 10%!
Оказывается (я не буду загромождать этот ответ деталями), что распределения этих шансов сопоставимы с нормальным случаем (для малых ) даже для пуассоновских распределений интенсивности всего 1, что довольно искажено. Основное различие заключается в том, что обычно меньше вероятность найти низкий выброс и немного больше вероятность найти высокий выброс.N
источник
Я знаю обобщение стандартных коробочных графиков, в которых длины усов корректируются для учета искаженных данных. Детали лучше объясняются в очень четкой и краткой белой книге (Vandervieren, E., Hubert, M. (2004) «Скорректированный коробочный график для искаженных распределений», см. Здесь ).
Я лично считаю, что это лучшая альтернатива преобразованию данных (хотя оно также основано на специальном правиле, см. Технический документ).
Между прочим, я обнаружил, что мне есть, что добавить к примеру с Уубером. В той мере, в которой мы обсуждаем поведение усов, мы действительно должны также учитывать, что происходит при рассмотрении загрязненных данных:
В этой модели загрязнения B1 имеет, по существу, логарифмическое нормальное распределение, за исключением 20 процентов данных, которые являются наполовину левыми, наполовину правыми выбросами (точка разрыва в соседних ячейках такая же, как и в случае обычных коробочных диаграмм, то есть предполагается, что самое большее 25 процентов данных могут быть плохими).
На графиках изображены классические коробчатые диаграммы преобразованных данных (с использованием преобразования квадратного корня)
и скорректированный блок-график нетрансформированных данных.
По сравнению с откорректированными коробочными диаграммами первый вариант маскирует реальные выбросы и маркирует хорошие данные как выбросы. В целом, будет удастся скрыть любые доказательства асимметрии в данных, классифицируя оскорбительные точки как выбросы.
В этом примере подход использования стандартного блочного графика в корне квадратном из данных находит 13 выбросов (все справа), тогда как скорректированный блок-график находит 10 правых и 14 левых выбросов.
РЕДАКТИРОВАТЬ: скорректированные участки коробки в двух словах.
На «классических» бокс-плотах усы размещаются по адресу:
Это практическое правило является специальным: обоснование состоит в том, что если незагрязненная часть данных является приблизительно гауссовой, то менее 1% хороших данных будет классифицировано как плохие с использованием этого правила.
Слабость этого правила ограждения, как указывает OP, заключается в том, что длина двух усов идентична, то есть правило ограждения имеет смысл, только если незагрязненная часть данных имеет симметричное распределение.
Популярный подход заключается в том, чтобы сохранить правило забора и адаптировать данные. Идея состоит в том, чтобы преобразовать данные, используя некоторое корректирующее монотонное преобразование (квадратный корень или лог или, в более общем случае, преобразования Бокса-Кокса). Это несколько запутанный подход: он основан на круговой логике (преобразование должно быть выбрано так, чтобы исправить асимметрию незагрязненной части данных, которая на данном этапе ненаблюдаема) и имеет тенденцию затруднять интерпретацию данных. визуально. В любом случае, это остается странной процедурой, при которой кто-то изменяет данные, чтобы сохранить то, что в конце концов является специальным правилом.
Альтернатива состоит в том, чтобы оставить данные нетронутыми и изменить правило вискера. Настроенный блок-график позволяет изменять длину каждого вискера в соответствии с индексом, измеряющим асимметрию незагрязненной части данных:
источник