Вопросы с тегом «outliers»

10
Как мне включить инновационный выброс при наблюдении 48 в мою модель ARIMA?

Я работаю над набором данных. После использования некоторых методов идентификации моделей я разработал модель ARIMA (0,2,1). Я использовал detectIOфункцию в пакете TSAв R, чтобы обнаружить инновационный выброс (IO) на 48-м наблюдении за моим исходным набором данных. Как включить этот выброс в мою...

10
Разница между выбросами и выбросами

Я наткнулся на термин inlier в показателе LOF (Local Outlier Factor), я знаком с термином выбросов (ну в основном лжи - экземпляры, которые не ведут себя как остальные экземпляры). Что означает «Inliers» в контексте обнаружения аномалий? и как это связано с (отличными от)...

10
Влиятельный остаток против выброса

Во-первых, я должен заявить, что я искал на этом сайте ответ. Либо я не нашел вопрос, который ответил на мой вопрос, либо мой уровень знаний настолько низок, что я не понял, что уже прочитал ответ. Я готовлюсь к экзамену по статистике AP. Я должен изучить линейную регрессию, и одна из тем -...

10
Гистограмма с однородными и неоднородными ячейками

Этот вопрос описывает принципиальное различие между равномерной и неоднородной гистограммой. И в этом вопросе обсуждается эмпирическое правило для выбора количества бинов однородной гистограммы, которое оптимизирует (в некотором смысле) степень, в которой гистограмма представляет распределение, из...

10
Как исправить выбросы, обнаруженные при прогнозировании данных временных рядов?

Я пытаюсь найти способ исправить выбросы, как только я найду / обнаружу их в данных временных рядов. Некоторые методы, такие как nnetar в R, дают некоторые ошибки для временных рядов с большими / большими выбросами. Мне уже удалось исправить пропущенные значения, но выбросы все еще разрушают мои...

10
Онлайн обнаружение выбросов

Я хочу обрабатывать автоматически сегментированные изображения микроскопии для обнаружения неисправных изображений и / или ошибочных сегментаций как части высокопроизводительного конвейера обработки изображений. Существует множество параметров, которые можно вычислить для каждого необработанного...

10
Обнаружение аномалий: какой алгоритм использовать?

Контекст: я разрабатываю систему, которая анализирует клинические данные для фильтрации неправдоподобных данных, которые могут быть опечатками. Что я сделал до сих пор: Для количественной оценки правдоподобия до сих пор я пытался нормализовать данные, а затем вычислить значение правдоподобия для...

9
Предельное значение расстояния Кука

Я читал на расстоянии повара, чтобы определить выбросы, которые имеют большое влияние на мою регрессию. В оригинальном исследовании Кука он говорит, что уровень отсечки 1 должен быть сопоставим для выявления влияющих факторов. Тем не менее, различные другие исследования используют или в качестве...

9
Как подготовить / построить функции для обнаружения аномалий (данные сетевой безопасности)

Моя цель - проанализировать сетевые журналы (например, Apache, syslog, аудит безопасности Active Directory и т. Д.), Используя кластеризацию / обнаружение аномалий для целей обнаружения вторжений. Из журналов у меня много текстовых полей, таких как IP-адрес, имя пользователя, имя хоста, порт...

9
Обратное тестирование или перекрестная проверка, когда процесс построения модели был интерактивным

У меня есть несколько прогностических моделей, производительность которых я хотел бы протестировать (например, взять мой набор данных, «перемотать» его к предыдущему моменту времени и посмотреть, как модель будет работать перспективно). Проблема в том, что некоторые из моих моделей были созданы с...

9
Как интерпретировать и делать прогнозирование с использованием пакета tsoutliers и auto.arima

У меня есть ежемесячные данные с 1993 по 2015 год, и я хотел бы сделать прогноз на этих данных. Я использовал пакет tsoutliers для определения выбросов, но я не знаю, как мне продолжать прогнозировать с моим набором данных. Это мой код: product.outlier<-tso(product,types=c("AO","LS","TC"))...

9
Можно ли пропустить данные из исследований, потому что они не значимы?

Я встречал это предложение, читая статью на sciencemag.org . В конце были включены ответы только от 7600 исследователей в 12 странах, потому что остальные данные не считались статистически значимыми. Это правильный способ исследования? Оставить результаты, потому что они не считались статистически...

9
Усеченное среднее против медианного

У меня есть набор данных со всеми звонками в службу экстренной помощи и временем отклика отделения скорой помощи. Они признали, что есть некоторые ошибки с временем отклика, так как есть случаи, когда они не начали запись (таким образом, значение 0) или когда они не останавливали часы (таким...

9
Выбор значения k для анализа обнаружения локального фактора выброса (LOF)

У меня есть набор трехмерных данных, и я пытаюсь использовать локальный анализ коэффициента выбросов, чтобы определить наиболее уникальные или странные значения. Как определить значение k для использования в анализе LOF? Я понимаю, что определяет значение k, и поэтому я не удивлен, что вижу...

9
Удаление выбросов из данных - максимальное количество выбросов, которые вы можете удалить?

У меня есть несколько выбросов в моих данных, и я хотел исключить их, чтобы увидеть, изменит ли это результаты. По вашему мнению, каким максимальным количеством выбросов следует ограничиться? Спасибо!...

9
Имеет ли значение переменный порядок в линейной регрессии

Я исследую взаимодействие между двумя переменными ( и ). Между этими переменными существует значительная линейная корреляция с . Исходя из природы проблемы, я не могу ничего сказать о причинно-следственной связи ( вызывает ли или наоборот). Я хотел бы изучить отклонения от линии регрессии, чтобы...

9
Рассчитать кривую ROC для данных

Итак, у меня есть 16 испытаний, в которых я пытаюсь идентифицировать человека по биометрической характеристике, используя расстояние Хэмминга. Мой порог установлен на 3,5. Мои данные ниже, и только пробная версия 1 является истинным положительным результатом: Trial Hamming Distance 1 0.34 2 0.37 3...

9
Автоматическое определение порога для обнаружения аномалий

Я работаю с временным рядом оценок аномалий (фон - обнаружение аномалий в компьютерных сетях). Каждую минуту я получаю оценку аномалии которая говорит мне, насколько «неожиданным» или ненормальным является текущее состояние сети. Чем выше оценка, тем ненормальнее текущее состояние. Результаты,...

9
Как подобрать модель для временного ряда, который содержит выбросы

Я установил модель ARIMA (5,1,2), используя auto.arima()функцию в R, и, посмотрев порядок, мы можем сказать, что это не лучшая модель для прогнозирования. Если в рядах данных существуют выбросы, каков метод для подгонки модели к таким...