Вопросы с тегом «outliers»

Выделение - это наблюдение, которое кажется необычным или недостаточно хорошо описанным по сравнению с простой характеристикой набора данных. Беспокоящая возможность состоит в том, что эти данные поступают из другой популяции, чем та, которую намеревались изучить.

94
Каков наилучший способ выявления выбросов в многомерных данных?

Предположим, у меня есть большой набор многомерных данных, по крайней мере, с тремя переменными. Как я могу найти выбросы? Парные диаграммы рассеяния не будут работать, поскольку выброс может существовать в трех измерениях, который не является выбросом ни в одном из двухмерных подпространств. Я...

93
Основные тесты проверки данных

В своей работе я часто работаю с наборами данных других людей, неспециалисты приносят мне клинические данные, и я помогаю им обобщать их и выполнять статистические тесты. Проблема, с которой я сталкиваюсь, состоит в том, что наборы данных, которые я привожу, почти всегда полны опечаток,...

89
Интерпретация plot.lm ()

У меня был вопрос о том, как интерпретировать графики, созданные с помощью plot (lm) в R. Мне было интересно, можете ли вы, ребята, сказать мне, как интерпретировать графики масштаба-местоположения и левереджа? Любые замечания будут оценены. Предположим, базовые знания статистики, регрессии и...

88
Простой алгоритм онлайн-определения выбросов общего временного ряда

Я работаю с большим количеством временных рядов. Эти временные ряды в основном представляют собой измерения сети, проводимые каждые 10 минут, и некоторые из них являются периодическими (т. Е. Пропускная способность), а некоторые другие - нет (т. Е. Объем трафика маршрутизации). Я хотел бы, чтобы...

82
Почему надежная (и устойчивая) статистика не заменила классические методы?

При решении бизнес-задач с использованием данных обычно используется хотя бы одно ключевое предположение о том, что подкрепляющая классическая статистика недопустима. В большинстве случаев никто не удосуживается проверить эти предположения, поэтому вы никогда не узнаете. Например, то, что многие из...

78
Пример: регрессия LASSO с использованием glmnet для двоичного результата

Я начинаю баловаться с использованием glmnetс LASSO регрессией , где мой результат представляет интерес дихотомический. Я создал небольшой фрейм данных ниже: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91,...

73
Как следует учитывать выбросы в линейном регрессионном анализе?

Часто статистическому аналитику передают набор данных и просят соответствовать модели, используя метод, такой как линейная регрессия. Очень часто набор данных сопровождается заявлением об отказе, похожем на «О, да, мы испортили сбор некоторых из этих точек данных - делай, что можешь». Эта ситуация...

71
Генерация случайной величины с определенной корреляцией с существующей переменной

Для исследования моделирования я должен генерировать случайные переменные , которые показывают prefined (населения) корреляцию с существующей переменной .YYY Я посмотрел на Rпакеты copulaи CDVineкоторые могут производить случайные многомерные распределения с заданной структурой зависимостей. Однако...

50
Быстрая линейная регрессия, устойчивая к выбросам

Я имею дело с линейными данными с выбросами, некоторые из которых находятся на расстоянии более 5 стандартных отклонений от расчетной линии регрессии. Я ищу технику линейной регрессии, которая уменьшает влияние этих точек. Пока что я сделал, чтобы оценить линию регрессии со всеми данными, затем...

44
Строгое определение выброса?

Люди часто говорят о работе с выбросами в статистике. Что меня беспокоит в этом, так это то, что, насколько я могу судить, определение выброса является полностью субъективным. Например, если истинное распределение некоторой случайной величины является очень тяжелым или бимодальным, любая...

35
Обнаружение выбросов во временных рядах (LS / AO / TC) с использованием пакета tsoutliers в R. Как представить выбросы в формате уравнения?

Комментарии: Во - первых , я хотел бы сказать большое спасибо автору этого новые tsoutliers пакет , который реализует Чен и Лю обнаружения временных рядов останец , который был опубликован в журнале Американской статистической ассоциации в 1993 году Open Source программного обеспечения .ррR Пакет...

33
Как случайные леса не чувствительны к выбросам?

Я читал в нескольких источниках, в том числе и в этом , что случайные леса не чувствительны к выбросам (например, как логистическая регрессия и другие методы ML). Тем не менее, две части интуиции говорят мне иначе: Всякий раз, когда построено дерево решений, все точки должны быть классифицированы....

33
Можно ли удалять выбросы из данных?

Я искал способ удалить выбросы из набора данных, и я нашел этот вопрос . В некоторых комментариях и ответах на этот вопрос, однако, люди упоминали, что удаление выбросов из данных является плохой практикой. В моем наборе данных у меня есть несколько выбросов, которые, скорее всего, связаны только с...

32
Обнаружение аномалий связи во временной сети

Я наткнулся на эту статью, в которой используется обнаружение аномалий ссылок для прогнозирования актуальных тем, и я нахожу это невероятно интригующим: статья «Обнаружение новых тем в социальных сетях с помощью обнаружения аномалий ссылок» . Я хотел бы скопировать его на другой набор данных, но я...

31
Замена выбросов на среднее

Этот вопрос был задан моим другом, который не разбирается в Интернете. У меня нет статистики, и я искал в интернете этот вопрос. Вопрос в том, можно ли заменить выбросы средним значением? если это возможно, есть ли какие-либо книги / журналы, чтобы подтвердить это...

27
Обнаружение выбросов с использованием стандартных отклонений

После моего вопроса здесь , мне интересно , если есть сильные мнения за или против использования стандартного отклонения для выявления выбросов (например , любой Datapoint , что более чем 2 стандартное отклонение является останец). Я знаю, что это зависит от контекста исследования, например, точка...

26
Почему RANSAC не наиболее широко используется в статистике?

Исходя из области компьютерного зрения, я часто использовал метод RANSAC (Random Sample Consensus) для подгонки моделей к данным с большим количеством выбросов. Тем не менее, я никогда не видел, чтобы он использовался статистиками, и у меня всегда было впечатление, что его не считают «статистически...

26
Почему PCA чувствителен к выбросам?

В этой SE много постов, в которых обсуждаются надежные подходы к анализу главных компонентов (PCA), но я не могу найти ни одного хорошего объяснения того, почему PCA в первую очередь чувствителен к...

25
Применение вейвлетов к алгоритмам обнаружения аномалий на основе временных рядов

Эндрю Мур ( Andrew Moore) начал работать над учебными пособиями по сбору статистических данных (настоятельно рекомендуется всем, кто впервые пойдет в эту область). Я начал с чтения этого чрезвычайно интересного PDF-документа под названием «Вводный обзор алгоритмов обнаружения аномалий на основе...

24
В каком порядке следует проводить линейную регрессионную диагностику?

В линейном регрессионном анализе мы анализируем выбросы, исследуем мультиколлинеарность, тестируем гетероскедастичность. Вопрос в том, есть ли порядок их применения? Я имею в виду, нужно ли сначала анализировать выбросы, а затем изучать мультиколлинеарность? Или поменять? Есть ли эмпирическое...