Согласно классическому определению выброса в качестве точки данных, превышающей 1,5 * IQR из верхнего или нижнего квартиля, существует предположение о неравномерном распределении. Для искаженных распределений (экспоненциальное, пуассоновское, геометрическое и т. Д.) Является наилучшим способом обнаружения выброса путем анализа преобразования исходной функции?
Например, распределения, слабо регулируемые экспоненциальным распределением, могут быть преобразованы с помощью функции журнала - в какой момент приемлемо искать выбросы на основе того же определения IQR?
1.5*IQR
определение выброса не является общепринятым. Попробуйте разгрузить свой вопрос и рассказать о проблеме, которую вы пытаетесь решить.Ответы:
Это правило для определения точек за пределами кончиков усов в коробочном графике. Сам Тьюки, несомненно, будет возражать против того, чтобы называть их выбросами на этой основе (он не обязательно рассматривал точки за этими пределами как выбросы). Скорее, это будут точки, которые - если ваши данные ожидаются из распределения, несколько похожего на нормальное распределение - могут быть предметом дальнейшего исследования (например, проверки того, что вы не перенесли две цифры, например), - самое большее это могут быть потенциальными выбросами. Как отмечает Ник Кокс в комментариях под этим ответом , хвост многих таких точек зрения будет восприниматься скорее как показатель того, что повторное выражение может быть подходящим, чем как указание на необходимость рассматривать точки как выбросы.
Я предположил, что «не перекос» означает «симметричный». Тогда предположение не только это. Тяжелое, но симметричное распределение может иметь много точек за пределами этого правила.
Это зависит от того, что представляет собой выброс для ваших целей. Не существует единого определения, подходящего для каждой цели - вообще-то, как правило, вам лучше делать другие вещи, которые (скажем) выбирают выбросы и пропускают их.
Для экспоненциального или геометрического вычисления вы могли бы выполнить расчет, аналогичный расчету для коробчатого графика, но при этом можно было бы определить аналогичную дробь только в правом хвосте (у вас не будет нижних конечных точек, идентифицированных в экспоненциальном или геометрическом) † .. или вы могли бы сделать что-то еще.†
В больших выборках коробчатый график отмечает около 0,35% точек на каждом конце или около 0,7% в целом. Например, для экспоненты вы можете отметить несколько значений медианы. Если вы хотите пометить примерно 0,7% от общего количества баллов за фактическую экспоненту, это будет означать, что отметка баллов будет превышать медиану в 7,1 раза.†
Маркировка точек, в 7,1 раза превышающих медиану для n = 1000, обычно составляет от 0,4% до 1,1% значений:
Это полностью зависит от того, что вы подразумеваете под «приемлемым». Обратите внимание, однако, что -
i) результирующее распределение на самом деле не симметрично, а явно левостороннее.
В результате вы обычно будете отмечать только точки на левом конце (т. Е. Близко к нулю, где вы ожидаете экспоненциальные значения в любом случае), а не справа (где могут быть «выбросы»), если только они на самом деле крайность.
II) пригодность такого правила будет сильно зависеть от того, что вы делаете.
Если вы беспокоитесь о странных странных значениях, влияющих на ваш вывод, в целом вам, вероятно, лучше использовать надежные процедуры, чем формально определять выбросы.
Если вы действительно хотите использовать правило на основе нормалей для преобразованных экспоненциальных или пуассоновских данных, я бы по крайней мере предложил применить его к квадратному корню ‡ для Пуассона (пока среднее значение не слишком мало, оно должно быть примерно нормальный) и кубический корень или даже четвертый корень для экспоненты (и, возможно, по расширению, геометрический).‡
или, возможно, √‡ , как впреобразовании АнскомбаX+38−−−−−√
Для экспоненты в больших выборках подход с кубическим корнем будет стремиться отмечать точки только в верхнем хвосте (примерно с той же скоростью, что он отмечает их в верхнем хвосте для нормали), а подход четвертого корня отмечает точки в обоих хвостах (немного больше в нижней части хвоста, в общей сложности около 40% от нормы, что он делает для нормального). Из возможных возможностей кубический корень имеет для меня больше смысла, чем два других, но я бы не советовал использовать это как какое-то жесткое и быстрое правило.
источник
Я отвечу на ваши вопросы в обратном порядке, в котором вы их задавали, чтобы изложение происходило от конкретного к общему.
Во-первых, давайте рассмотрим ситуацию, когда вы можете предположить, что, за исключением небольшого числа выбросов, объем ваших данных может быть хорошо описан известным распределением (в вашем случае - экспоненциальным).
Обычная оценка MLE параметров: [0, p 506]:
а также
Вот пример в
R
:Альтернатива необработанному MLE состоит в том, чтобы (а) найти выбросы, используя надежное правило идентификации выбросов , (b) отложить их в сторону как побочные данные и (c) вычислить MLE на не ложной части выборки.
Наиболее известным из этих надежных правил идентификации выбросов является правило «мед / безумный», предложенное Хампелем [3], который приписал его Гауссу (я проиллюстрировал это правило здесь ). В правиле med / mad, порог отклонения основан на предположении, что подлинные наблюдения в вашей выборке хорошо аппроксимируются нормальным распределением.
Конечно, если у вас есть дополнительная информация (например, зная, что распределение подлинных наблюдений хорошо аппроксимируется распределением Пуассона, как в этом примере ), ничто не помешает вам преобразовать ваши данные и использовать базовое правило отклонения выбросов ( мед / безумие) но мне немного неловко преобразовывать данные, чтобы сохранить то, что в конце концов является специальным правилом.
Мне кажется гораздо более логичным сохранить данные, но адаптировать правила отклонения. Затем вы все равно будете использовать трехэтапную процедуру, которую я описал в первой ссылке выше, но с порогом отклонения, адаптированным к распределению, вы подозреваете, что хорошая часть данных имеет. Ниже я даю правило отклонения в ситуациях, когда подлинные наблюдения хорошо соответствуют экспоненциальному распределению. В этом случае вы можете построить хорошие пороги отклонения, используя следующее правило:
2) отклонить как ложные все наблюдения за пределами [2, с 188]
(коэффициент 9 в вышеприведенном правиле получается как 7,1 в ответе Glen_b выше, но с использованием более высокого порога. Коэффициент (1 + 2 / n) - это небольшой поправочный коэффициент выборки, который был получен путем моделирования в [2]. Для достаточно больших размеров выборки он по существу равен 1).
используя это правило в предыдущих примерах, вы получите:
На третьем примере:
Теперь, для общего случая, когда у вас нет хорошего распределения кандидатов, подходящего под большую часть ваших наблюдений, помимо знания того, что симметричное распределение не подойдет, вы можете использовать скорректированный блок-график [4]. Это обобщение коробчатого графика, которое учитывает (непараметрический и устойчиво устойчивый) показатель асимметрии ваших данных (так что, когда объем данных симметричен, сворачивается до обычного коробчатого графика). Вы также можете проверить этот ответ для иллюстрации.
источник
Во-первых, я бы поставил под сомнение определение, классическое или нет. «Выброс» - удивительный момент. Использование какого-либо конкретного правила (даже для симметричных распределений) является ошибочной идеей, особенно в настоящее время, когда существует так много огромных наборов данных. В наборе данных, скажем, одного миллиона наблюдений (не таких больших, в некоторых областях), будет много случаев за пределами 1,5 IQR, на которые вы ссылаетесь, даже если распределение совершенно нормальное.
Во-вторых, я бы посоветовал искать отклонения от исходных данных. Это почти всегда будет более интуитивным. Например, с данными о доходах довольно часто берут журналы. Но даже здесь я бы искал выбросы в первоначальном масштабе (доллары, евро или что-то еще), потому что мы лучше понимаем такие цифры. (Если вы берете журналы, я бы предложил базу 10 журналов, по крайней мере, для обнаружения выбросов, потому что это, по крайней мере, немного интуитивно понятно).
В-третьих, при поиске выбросов следует остерегаться маскировки.
Наконец, в настоящее время я изучаю алгоритм «прямого поиска», предложенный Аткинсоном и Риани для различных видов данных и проблем. Это выглядит очень многообещающе.
источник