Вопросы с тегом «outliers»

13
Отбрасывание выбросов на основе «2,5-кратного среднеквадратичного значения»

В Kahneman and Deaton (2010) † авторы пишут следующее:††^\dagger Эта регрессия объясняет 37% дисперсии с среднеквадратической ошибкой (RMSE) 0,67852. Чтобы исключить выбросы и отчеты о неправдоподобных доходах, мы отбросили наблюдения, в которых абсолютная величина разницы между доходом от журнала...

13
используя информацию о соседях при вменении данных или находке вне данных (в R)

У меня есть набор данных с предположением, что ближайшие соседи являются лучшими предикторами. Просто прекрасный пример визуализации двухстороннего градиента Предположим, у нас есть случай, когда несколько значений отсутствуют, мы можем легко предсказать на основе соседей и тренда. Соответствующая...

13
Отделение двух популяций от образца

Я пытаюсь отделить две группы значений из одного набора данных. Я могу предположить, что одна из популяций обычно распределена и составляет не менее половины размера выборки. Значения второго значения ниже или выше значений первого (распределение неизвестно). То, что я пытаюсь сделать, - это найти...

13
LARS против координатного спуска для лассо

Каковы плюсы и минусы использования LARS [1] по сравнению с использованием координатного спуска для подбора L1-регуляризованной линейной регрессии? Я в основном заинтересован в аспектах производительности (мои проблемы, как правило, Nисчисляются сотнями тысяч и p<20). Однако, любые другие идеи...

12
Различия между PROC Mixed и lme / lmer в R - степени свободы

Примечание: этот вопрос является репостом, так как мой предыдущий вопрос пришлось удалить по юридическим причинам. Сравнивая PROC MIXED из SAS с функцией lmeиз nlmeпакета в R, я наткнулся на некоторые довольно запутанные различия. Более конкретно, степени свободы в разных тестах различаются между...

12
Обнаружение выброса в очень маленьких наборах

Мне нужно получить как можно более точное значение яркости в основном стабильного источника света, учитывая двенадцать значений яркости образца. Датчик неидеален, и свет может иногда «мерцать» ярче или темнее, что можно игнорировать, отсюда моя потребность в обнаружении выбросов (я думаю?). Я...

12
STL на временных рядах с пропущенными значениями для обнаружения аномалий

Я пытаюсь обнаружить аномальные значения во временном ряду климатических данных с некоторыми отсутствующими наблюдениями. При поиске в Интернете я нашел много доступных подходов. Из них stl разложение кажется привлекательным в смысле удаления трендовых и сезонных компонентов и изучения остатка....

12
почему метод повышения чувствительности к выбросам

Я нашел много статей, в которых говорится, что методы повышения чувствительны к выбросам, но нет статей, объясняющих почему. По моему опыту, выбросы плохи для любого алгоритма машинного обучения, но почему методы повышения выделяются как особенно чувствительные? Как бы оценили следующие алгоритмы с...

12
Как учесть влияние праздников в прогнозе

У меня довольно предсказуемые ежедневные временные ряды с еженедельной сезонностью. Я могу придумать прогнозы, которые кажутся довольно точными (подтвержденными перекрестной проверкой), когда нет выходных. Однако, когда есть праздники, у меня возникают следующие проблемы: В моем прогнозе я получаю...

12
Хорошая форма для удаления выбросов?

Я работаю над статистикой для сборок программного обеспечения. У меня есть данные для каждой сборки по пройденному / неудачному и истекшему времени, и мы генерируем ~ 200 из них / неделю. Коэффициент успешности легко агрегируется, я могу сказать, что 45% прошли каждую данную неделю. Но я хотел бы...

11
Нахождение средней точки GPS

Мне нужно написать программу, чтобы найти среднюю точку GPS из совокупности точек. На практике происходит следующее: Каждый месяц человек записывает точку GPS одного и того же статического актива. Из-за особенностей GPS эти точки немного отличаются каждый месяц. Иногда человек делает ошибку,...

11
Обнаружение выбросов во временных рядах: как уменьшить количество ложных срабатываний?

Я пытаюсь автоматизировать обнаружение выбросов во временных рядах, и я использовал модификацию решения, предложенного здесь Робом Хиндманом . Скажем, я измеряю ежедневные посещения сайта из разных стран. В некоторых странах, где ежедневные посещения составляют несколько сотен или тысяч, мой метод,...

11
Автоматический выбор функции для обнаружения аномалий

Каков наилучший способ автоматического выбора функций для обнаружения аномалий? Обычно я рассматриваю обнаружение аномалий как алгоритм, в котором функции выбираются специалистами-людьми: важен выходной диапазон (например, «ненормальный вход - ненормальный выход»), поэтому даже со многими функциями...

11
Насколько точен IQR для обнаружения выбросов

Я пишу сценарий, который анализирует время выполнения процессов. Я не уверен в их распространении, но хочу знать, выполняется ли процесс «слишком долго». До сих пор я использовал 3 стандартных отклонения времени последнего запуска (n> 30), но мне сказали, что это не дает ничего полезного, если...

11
Обнаружение выбросов с использованием регрессии

Может ли регрессия использоваться для внешнего обнаружения. Я понимаю, что существуют способы улучшить регрессионную модель путем устранения выбросов. Но основная цель здесь не в том, чтобы подогнать регрессионную модель, а в том, чтобы выяснить, кто использует...

11
Надежная оценка куртоза?

Я использую обычный оценщик для , но я заметилчто даже небольшие «выбросы» в моем эмпирическом распределении, то есть небольшие пики далеко от центра, влияютего чрезвычайно. Существует ли более надежная оценка...

11
Хорошие книги, посвященные методам предварительной обработки данных и обнаружения выбросов

Как гласит заголовок, знает ли кто-нибудь хорошую, современную книгу, которая описывает предварительную обработку данных в целом и особенно методы обнаружения выбросов? Книга не должна быть сосредоточена исключительно на этом, но она должна быть исчерпывающе затронута вышеупомянутыми темами - я не...

11
Выявление выбросов для нелинейной регрессии

Я занимаюсь исследованиями в области функциональной реакции клещей. Я хотел бы сделать регрессию для оценки параметров (скорость атаки и время обработки) функции Роджерса типа II. У меня есть набор данных измерений. Как я могу лучше всего определить выбросы? Для моей регрессии я использую следующий...

11
Обобщенные линейные смешанные модели: диагностика

У меня случайная перехват логистической регрессии (из-за многократных измерений), и я хотел бы провести некоторую диагностику, особенно в отношении выбросов и влиятельных наблюдений. Я посмотрел на остатки, чтобы увидеть, есть ли наблюдения, которые выделяются. Но я также хотел бы взглянуть на...