Вопросы с тегом «outliers»

24
Обнаружение выбросов на асимметричных распределениях

Согласно классическому определению выброса в качестве точки данных, превышающей 1,5 * IQR из верхнего или нижнего квартиля, существует предположение о неравномерном распределении. Для искаженных распределений (экспоненциальное, пуассоновское, геометрическое и т. Д.) Является наилучшим способом...

23
Распределение наблюдательного уровня по расстоянию Махаланобиса

Если у меня есть многовариантный нормальный пример iid , и я определяю (что-то вроде расстояния Махаланобиса [в квадрате] от точки выборки до вектора с использованием матрицы для взвешивания), каково распределение (расстояние Махаланобиса до среднее значение с использованием выборочной...

23
Следует ли удалять случаи, отмеченные статистическими программами как выбросы при выполнении множественной регрессии?

Я выполняю множественный регрессионный анализ и не уверен, следует ли удалять выбросы в моих данных. Данные, которые меня беспокоят, отображаются на прямоугольниках SPSS в виде «кружков», однако звездочек нет (что заставляет меня думать, что они не такие уж «плохие»). Случаи, которые меня...

21
Обнаружение выбросов в данных подсчета

У меня есть то, что я наивно думал, что это довольно прямая проблема, которая включает в себя обнаружение выбросов для множества различных наборов данных подсчета. В частности, я хочу определить, является ли одно или несколько значений в серии данных подсчета выше или ниже ожидаемого по сравнению с...

19
Самозагрузка - нужно ли сначала удалять выбросы?

Мы запустили сплит-тест новой функции продукта и хотим оценить, является ли увеличение выручки значительным. Наши наблюдения, как правило, не распределяются нормально (большинство наших пользователей не тратят, а среди тех, кто их тратит, они сильно отклоняются от множества мелких и очень больших...

19
Как оценить асимметрию с коробочного участка?

Как определить асимметрию, посмотрев на коробочную диаграмму, построенную из этих данных: 340, 300, 520, 340, 320, 290, 260, 330 Одна книга гласит: «Если нижний квартиль находится дальше от медианы, чем верхний квартиль, то распределение отрицательно искажено». Несколько других источников сказали...

18
Обнаружение аномалий с фиктивными характеристиками (и другими дискретными / категориальными характеристиками)

ТЛ; др Каков рекомендуемый способ обработки discreteданных при обнаружении аномалий? Каков рекомендуемый способ обработки categoricalданных при обнаружении аномалий? Этот ответ предлагает использовать дискретные данные для фильтрации результатов. Возможно, замените значение категории шансом...

17
Можем ли мы использовать одно среднее значение и стандартное отклонение, чтобы выявить выбросы?

Предположим, у меня есть нормально распределенные данные. Для каждого элемента данных я хочу проверить, сколько SD находится от среднего значения. В данных могут быть выбросы (вероятно, только один, но могут быть также два или три) или нет, но этот выброс в основном то, что я ищу. Имеет ли смысл...

17
Что является основанием для определения выброса по Боксу и Вискеру?

Стандартным определением выброса для графика Бокса и Вискера являются точки вне диапазона , где I Q R = Q 3 - Q 1, а Q 1 - первый квартиль и Q 3 - третий квартиль данных.{Q1−1.5IQR,Q3+1.5IQR}{Q1−1.5IQR,Q3+1.5IQR}\left\{Q1-1.5IQR,Q3+1.5IQR\right\}IQR=Q3−Q1IQR=Q3−Q1IQR= Q3-Q1Q1Q1Q1Q3Q3Q3 На чем...

17
Как представить коробочный сюжет с экстремальным выбросом?

Я мог бы использовать некоторые рекомендации по представлению некоторых данных. Этот первый график представляет собой сравнение случай-контроль для цитокина IL-10. Я вручную установил ось Y, чтобы включить 99% данных. Причина, по которой я установил это вручную, заключается в том, что группа дел...

17
Надежный PCA против надежного расстояния Махаланобиса для обнаружения выбросов

Надежный PCA (разработанный Candes et al. 2009 или более поздней версии Netrepalli et al 2014 ) является популярным методом многомерного обнаружения выбросов , но расстояние Махаланобиса также можно использовать для обнаружения выбросов с помощью надежной регуляризованной оценки ковариационной...

17
Может ли очистка данных ухудшить результаты статистического анализа?

Увеличение числа случаев и смертей происходит во время эпидемий (внезапное увеличение числа) из-за циркуляции вируса (например, вируса Западного Нила в США в 2002 г.) или из-за снижения устойчивости людей или загрязнения пищи или воды или увеличения числа комары. Эти эпидемии будут представлены как...

16
Как сделать прогнозирование с обнаружением выбросов в R? - Процедура и метод анализа временных рядов

У меня есть месячные данные временных рядов, и я хотел бы сделать прогноз с обнаружением выбросов. Это образец моего набора данных: Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 2006 7.55 7.63 7.62 7.50 7.47 7.53 7.55 7.47 7.65 7.72 7.78 7.81 2007 7.71 7.67 7.85 7.82 7.91 7.91 8.00 7.82 7.90 7.93...

16
Надежное обнаружение выбросов в финансовых временных сериях

Я ищу некоторые надежные методы для удаления выбросов и ошибок (независимо от причины) из финансовых данных временных рядов (например, тикданных). Тик-тик-тик финансовые данные временных рядов очень грязные. Он содержит огромные (временные) промежутки, когда биржа закрыта, и делает огромные скачки,...

15
Является ли это мошенничеством, чтобы отбросить выбросы, основанные на диаграмме средней абсолютной ошибки, чтобы улучшить регрессионную модель

У меня есть модель прогнозирования, протестированная четырьмя методами, как вы можете видеть на рисунке ниже. Атрибут, который предсказывает модель, находится в диапазоне 0-8. Вы можете заметить, что во всех методах указаны один выброс верхней границы и три выброса нижней границы . Интересно,...

15
Оценка параметров нормального распределения: медиана вместо среднего?

Общий подход для оценки параметров нормального распределения заключается в использовании среднего значения и стандартного отклонения / дисперсии выборки. Однако, если есть некоторые выбросы, медиана и срединное отклонение от медианы должны быть намного более устойчивыми, верно? На некоторых наборах...

15
Ускоренный курс в устойчивой средней оценке

У меня есть куча (около 1000) оценок, и все они должны быть оценками долгосрочной эластичности. Чуть более половины из них оценивается с использованием метода A, а остальные - с использованием метода B. Где-то я читал что-то вроде: «Я думаю, что метод B оценивает что-то очень отличное от метода A,...

15
Точное значение и сравнение между влиятельной точкой, точкой высокого плеча и выбросом?

Из Википедии Влиятельные наблюдения - это те наблюдения, которые относительно сильно влияют на прогнозы регрессионной модели. Из Википедии Точки воздействия - это те наблюдения, если таковые имеются, сделанные при экстремальных или внешних значениях независимых переменных, так что отсутствие...

14
Есть ли простой способ обнаружения выбросов?

Мне интересно, есть ли простой способ обнаружения выбросов. Для одного из моих проектов, который был в основном корреляцией между количеством раз, когда респонденты участвуют в физической активности в неделю, и количеством раз, когда они едят вне дома (фаст-фуд) в неделю, я нарисовал диаграмму...

14
Понимание доверительной полосы от полиномиальной регрессии

Я пытаюсь понять результат, который вижу на графике ниже. Обычно я использую Excel и получаю линию линейной регрессии, но в приведенном ниже случае я использую R и получаю полиномиальную регрессию с помощью команды: ggplot(visual1, aes(ISSUE_DATE,COUNTED)) + geom_point() + geom_smooth() Поэтому мои...