Обнаружение выбросов на асимметричных распределениях

24

Согласно классическому определению выброса в качестве точки данных, превышающей 1,5 * IQR из верхнего или нижнего квартиля, существует предположение о неравномерном распределении. Для искаженных распределений (экспоненциальное, пуассоновское, геометрическое и т. Д.) Является наилучшим способом обнаружения выброса путем анализа преобразования исходной функции?

Например, распределения, слабо регулируемые экспоненциальным распределением, могут быть преобразованы с помощью функции журнала - в какой момент приемлемо искать выбросы на основе того же определения IQR?

Эрик
источник
4
На этом сайте много вопросов об оценке выбросов. Одна вещь, которую вам нужно добавить здесь, чтобы получить разумный ответ, - это то, что вы действительно пытаетесь сделать или узнать. Но для начала 1.5*IQRопределение выброса не является общепринятым. Попробуйте разгрузить свой вопрос и рассказать о проблеме, которую вы пытаетесь решить.
Джон
Утверждение о том, что значение, превышающее 1,5 IQR, является выбросом, просто бессмысленно. Данные, превышающие 1,5 IQR, будут полностью соответствовать бесконечному количеству распределений, и, поскольку размер выборки становится большим, можно почти с полной уверенностью утверждать, что такие данные НЕ являются выбросами.
волки

Ответы:

18

Согласно классическому определению выброса как точки данных, IQR 1,5 * из верхнего или нижнего квартиля,

Это правило для определения точек за пределами кончиков усов в коробочном графике. Сам Тьюки, несомненно, будет возражать против того, чтобы называть их выбросами на этой основе (он не обязательно рассматривал точки за этими пределами как выбросы). Скорее, это будут точки, которые - если ваши данные ожидаются из распределения, несколько похожего на нормальное распределение - могут быть предметом дальнейшего исследования (например, проверки того, что вы не перенесли две цифры, например), - самое большее это могут быть потенциальными выбросами. Как отмечает Ник Кокс в комментариях под этим ответом , хвост многих таких точек зрения будет восприниматься скорее как показатель того, что повторное выражение может быть подходящим, чем как указание на необходимость рассматривать точки как выбросы.

есть предположение о несимметричном распределении.

Я предположил, что «не перекос» означает «симметричный». Тогда предположение не только это. Тяжелое, но симметричное распределение может иметь много точек за пределами этого правила.

Для искаженных распределений (экспоненциальное, пуассоновское, геометрическое и т. Д.) Является наилучшим способом обнаружения выброса путем анализа преобразования исходной функции?

Это зависит от того, что представляет собой выброс для ваших целей. Не существует единого определения, подходящего для каждой цели - вообще-то, как правило, вам лучше делать другие вещи, которые (скажем) выбирают выбросы и пропускают их.

Для экспоненциального или геометрического вычисления вы могли бы выполнить расчет, аналогичный расчету для коробчатого графика, но при этом можно было бы определить аналогичную дробь только в правом хвосте (у вас не будет нижних конечных точек, идентифицированных в экспоненциальном или геометрическом) .. или вы могли бы сделать что-то еще.

В больших выборках коробчатый график отмечает около 0,35% точек на каждом конце или около 0,7% в целом. Например, для экспоненты вы можете отметить несколько значений медианы. Если вы хотите пометить примерно 0,7% от общего количества баллов за фактическую экспоненту, это будет означать, что отметка баллов будет превышать медиану в 7,1 раза.

Маркировка точек, в 7,1 раза превышающих медиану для n = 1000, обычно составляет от 0,4% до 1,1% значений:

ae <- rexp(1000)
table( ae > 7.1*median(ae) )

FALSE  TRUE 
  993     7 

Например, распределения, слабо регулируемые экспоненциальным распределением, могут быть преобразованы с помощью функции журнала - в какой момент приемлемо искать выбросы на основе того же определения IQR?

Это полностью зависит от того, что вы подразумеваете под «приемлемым». Обратите внимание, однако, что -

i) результирующее распределение на самом деле не симметрично, а явно левостороннее.

введите описание изображения здесь

В результате вы обычно будете отмечать только точки на левом конце (т. Е. Близко к нулю, где вы ожидаете экспоненциальные значения в любом случае), а не справа (где могут быть «выбросы»), если только они на самом деле крайность.

II) пригодность такого правила будет сильно зависеть от того, что вы делаете.

Если вы беспокоитесь о странных странных значениях, влияющих на ваш вывод, в целом вам, вероятно, лучше использовать надежные процедуры, чем формально определять выбросы.

Если вы действительно хотите использовать правило на основе нормалей для преобразованных экспоненциальных или пуассоновских данных, я бы по крайней мере предложил применить его к квадратному корню для Пуассона (пока среднее значение не слишком мало, оно должно быть примерно нормальный) и кубический корень или даже четвертый корень для экспоненты (и, возможно, по расширению, геометрический).

или, возможно, , как впреобразовании АнскомбаX+38

введите описание изображения здесь

Для экспоненты в больших выборках подход с кубическим корнем будет стремиться отмечать точки только в верхнем хвосте (примерно с той же скоростью, что он отмечает их в верхнем хвосте для нормали), а подход четвертого корня отмечает точки в обоих хвостах (немного больше в нижней части хвоста, в общей сложности около 40% от нормы, что он делает для нормального). Из возможных возможностей кубический корень имеет для меня больше смысла, чем два других, но я бы не советовал использовать это как какое-то жесткое и быстрое правило.

Glen_b - Восстановить Монику
источник
1
«Тяжелое, но симметричное распределение может иметь много точек за пределами этого правила». В IQR всегда есть ровно 50% всех точек, не так ли?
JulienD
2
(Q11.5×IQR,Q3+1.5×IQR)
@Glen_b Верхний порог отклонения для экспоненты в вашем ответе предполагает, что параметр сдвига (или тета) известен. Я думаю, что это должно быть упомянуто.
user603
1
@ user603 Термин « экспоненциальное распределение » (также см. здесь ) без какого-либо модифицирующего прилагательного (например, «сдвинутый» или «двухпараметрический») обычно относится к версии с одним параметром. Некоторые люди называют сдвинутую версию «экспоненциальным распределением», но это относительно редко; только немного чаще, чем называть смещенное логнормальное распределение «логнормальным распределением».
Glen_b
1
@ user603 Ой, извините, простое недопонимание - в этом случае да, я не думаю, что у нас есть какие-либо существенные разногласия - там, где есть какая-либо возможность больших выбросов слева, упомянутый мною подход вообще не имеет смысла . Я просто не пытался справиться с какой-либо потенциальной ситуацией (но в мою защиту, мне не казалось, что ОП рассматривает это как возможность - я сомневаюсь, что взятие логов могло бы прийти на ум, если бы это было так).
Glen_b
14

Я отвечу на ваши вопросы в обратном порядке, в котором вы их задавали, чтобы изложение происходило от конкретного к общему.

Во-первых, давайте рассмотрим ситуацию, когда вы можете предположить, что, за исключением небольшого числа выбросов, объем ваших данных может быть хорошо описан известным распределением (в вашем случае - экспоненциальным).

x

pX(x)=σ1exp((xθ)σ),x>0;σ>0

xθ=0 , называется однопараметрическим или стандартным экспоненциальным распределением).

Обычная оценка MLE параметров: [0, p 506]:

θ^=minixi

а также

σ^=aveiximinixi

Вот пример в R:

n<-100
theta<-1
sigma<-2
set.seed(123) #for reproducibility
x<-rexp(n,rate=1/sigma)+theta
mean(x)-min(x)

σ2.08 .

xixi

m<-floor(0.2*n)
y<-x
y[1:m]<--y[1:m]
mean(y)-min(y)

σ11.12xi100xi (скажем, если десятичное место было случайно смещено):

m<-floor(0.2*n)
z<-x
z[1:m]<-100*z[1:m]
mean(z)-min(z)

σ54 (!).

Альтернатива необработанному MLE состоит в том, чтобы (а) найти выбросы, используя надежное правило идентификации выбросов , (b) отложить их в сторону как побочные данные и (c) вычислить MLE на не ложной части выборки.

Наиболее известным из этих надежных правил идентификации выбросов является правило «мед / безумный», предложенное Хампелем [3], который приписал его Гауссу (я проиллюстрировал это правило здесь ). В правиле med / mad, порог отклонения основан на предположении, что подлинные наблюдения в вашей выборке хорошо аппроксимируются нормальным распределением.

Конечно, если у вас есть дополнительная информация (например, зная, что распределение подлинных наблюдений хорошо аппроксимируется распределением Пуассона, как в этом примере ), ничто не помешает вам преобразовать ваши данные и использовать базовое правило отклонения выбросов ( мед / безумие) но мне немного неловко преобразовывать данные, чтобы сохранить то, что в конце концов является специальным правилом.

Мне кажется гораздо более логичным сохранить данные, но адаптировать правила отклонения. Затем вы все равно будете использовать трехэтапную процедуру, которую я описал в первой ссылке выше, но с порогом отклонения, адаптированным к распределению, вы подозреваете, что хорошая часть данных имеет. Ниже я даю правило отклонения в ситуациях, когда подлинные наблюдения хорошо соответствуют экспоненциальному распределению. В этом случае вы можете построить хорошие пороги отклонения, используя следующее правило:

θ

θ^=medixi3.476Qn(x)ln2

3.476 , подробнее см. [1].

2) отклонить как ложные все наблюдения за пределами [2, с 188]

[θ^,9(1+2/n)medixi+θ^]

(коэффициент 9 в вышеприведенном правиле получается как 7,1 в ответе Glen_b выше, но с использованием более высокого порога. Коэффициент (1 + 2 / n) - это небольшой поправочный коэффициент выборки, который был получен путем моделирования в [2]. Для достаточно больших размеров выборки он по существу равен 1).

σ

σ^=aveiHximiniHxi

H={i:θ^xi9(1+2/n)medixi+θ^}

используя это правило в предыдущих примерах, вы получите:

library(robustbase)
theta<-median(x)-Qn(x,constant=3.476)*log(2)
clean<-which(x>=theta & x<=9*(1+2/n)*median(x)+theta)
mean(x[clean])-min(x[clean])

σ2.05

theta<-median(y)-Qn(y,constant=3.476)*log(2)
clean<-which(y>=theta & y<=9*(1+2/n)*median(y)+theta)
mean(y[clean])-min(y[clean])

σ2.2

На третьем примере:

theta<-median(z)-Qn(z,constant=3.476)*log(2)
clean<-which(z>=theta & z<=9*(1+2/n)*median(z)+theta)
mean(z[clean])-min(z[clean])

σ2.2

{i:iH} ).

Теперь, для общего случая, когда у вас нет хорошего распределения кандидатов, подходящего под большую часть ваших наблюдений, помимо знания того, что симметричное распределение не подойдет, вы можете использовать скорректированный блок-график [4]. Это обобщение коробчатого графика, которое учитывает (непараметрический и устойчиво устойчивый) показатель асимметрии ваших данных (так что, когда объем данных симметричен, сворачивается до обычного коробчатого графика). Вы также можете проверить этот ответ для иллюстрации.

  • [0] Джонсон Н.Л., Коц С., Балакришнан Н. (1994). Непрерывные одномерные распределения, том 1, 2-е издание.
  • [1] Rousseeuw PJ и Croux C. (1993). Альтернативы срединному абсолютному отклонению. Журнал Американской Статистической Ассоциации, Vol. 88, № 424, с. 1273-1-133.
  • [2] JK Patel, CH Kapadia и DB Owen, Dekker (1976). Справочник статистических распределений.
  • [3] Hampel (1974). Кривая влияния и ее роль в робастной оценке. Журнал Американской статистической ассоциации Vol. 69, № 346 (Jun., 1974), с. 383-393.
  • [4] Вандервьерен, Э., Хьюберт, М. (2004). «Скорректированный коробочный график для перекошенных распределений». Вычислительная статистика и анализ данных Том 52, выпуск 12, 15 августа 2008 года, страницы 5186–5201.
user603
источник
1

Во-первых, я бы поставил под сомнение определение, классическое или нет. «Выброс» - удивительный момент. Использование какого-либо конкретного правила (даже для симметричных распределений) является ошибочной идеей, особенно в настоящее время, когда существует так много огромных наборов данных. В наборе данных, скажем, одного миллиона наблюдений (не таких больших, в некоторых областях), будет много случаев за пределами 1,5 IQR, на которые вы ссылаетесь, даже если распределение совершенно нормальное.

Во-вторых, я бы посоветовал искать отклонения от исходных данных. Это почти всегда будет более интуитивным. Например, с данными о доходах довольно часто берут журналы. Но даже здесь я бы искал выбросы в первоначальном масштабе (доллары, евро или что-то еще), потому что мы лучше понимаем такие цифры. (Если вы берете журналы, я бы предложил базу 10 журналов, по крайней мере, для обнаружения выбросов, потому что это, по крайней мере, немного интуитивно понятно).

В-третьих, при поиске выбросов следует остерегаться маскировки.

Наконец, в настоящее время я изучаю алгоритм «прямого поиска», предложенный Аткинсоном и Риани для различных видов данных и проблем. Это выглядит очень многообещающе.

Питер Флом - Восстановить Монику
источник