Этот вопрос был задан моим другом, который не разбирается в Интернете. У меня нет статистики, и я искал в интернете этот вопрос.
Вопрос в том, можно ли заменить выбросы средним значением? если это возможно, есть ли какие-либо книги / журналы, чтобы подтвердить это утверждение?
Ответы:
Очевидно, что это возможно, но не ясно, что это может быть хорошей идеей.
Давайте рассмотрим несколько способов, которыми это ограниченное или несовершенное решение:
По сути, вы говорите, что значение выброса совершенно ненадежно, поскольку вы можете только предположить , что значение должно быть средним. Если это то, что вы думаете, вероятно, будет более честным просто опустить рассматриваемое наблюдение, поскольку, очевидно, у вас недостаточно информации, чтобы сделать более правильное предположение.
Если больше ничего не сказано, вам нужен критерий или критерии для выявления выбросов в первую очередь (как подразумевает @Frank Harrell). В противном случае это произвольная и субъективная процедура, даже если она защищается в порядке суждения. При некоторых критериях возможно, что удаление выбросов таким способом создает еще больше выбросов в качестве побочного эффекта. Примером может служить то, что выбросы - это более чем на столько стандартных отклонений от среднего значения. Удаление выброса изменяет стандартное отклонение, и теперь могут быть определены новые точки данных и т. Д.
Предположительно, среднее здесь означает среднее всех других значений, точка, которая была четко сформулирована @David Marx. Идея неоднозначна без этого условия.
Использование среднего значения может показаться безопасной или консервативной процедурой, но изменение значения на среднее изменит практически все остальные статистические данные, включая показатели уровня, масштаба и формы, а также показатели их неопределенности, - подчеркивает @whuber.
Среднее значение может даже не быть допустимым значением: простые примеры - это когда значения являются целыми числами, но обычно среднее значение не является целым числом.
Даже с учетом того, что использование итоговой меры является осторожным, использование среднего значения, а не медианы или какой-либо другой меры требует некоторого обоснования.
Всякий раз, когда есть другие переменные, изменение значения одной переменной без ссылки на другие может сделать точку данных аномальной в других смыслах.
Что делать с выбросами - открытый и очень сложный вопрос. Скорее, разные решения и стратегии имеют разную привлекательность. Вот частичный список возможностей. Порядок является произвольным и не предназначен для передачи какого-либо порядка с точки зрения применимости, важности или любого другого критерия. Эти подходы не являются взаимоисключающими.
Одно (на мой взгляд, хорошее) определение состоит в том, что «[o] истерики - это значения выборки, которые вызывают удивление по отношению к большей части выборки» (WN Venables и BD Ripley. 2002. Современная прикладная статистика с S. New York: Springer, с.119). Тем не менее, удивление находится в уме смотрящего и зависит от какой-то неявной или явной модели данных. Может существовать другая модель, при которой выбросы вовсе не удивительны, поэтому данные действительно (скажем, логнормальные или гамма, а не нормальные). Короче говоря, будьте готовы (пере) рассмотреть вашу модель.
Зайдите в лабораторию или в поле и повторите измерение. Часто это неосуществимо, но в некоторых науках это кажется стандартным.
Проверьте, являются ли выбросы подлинными. Большинство тестов для меня выглядят довольно надуманными, но вы можете найти такой, который, по вашему мнению, соответствует вашей ситуации. Всегда необходима иррациональная вера в то, что тест подходит, чтобы применить тест, который затем представляется как наиболее рациональный.
Выкинь их как предмет суда.
Выбросьте их, используя какое-то более или менее автоматизированное (обычно не «объективное») правило.
Игнорировать их, частично или полностью. Это может быть формально (например, обрезка) или просто оставить их в наборе данных, но исключить их из анализа как слишком горячие для обработки.
Потяните их, используя какую-то регулировку, например Winsorizing.
Приглушите их, используя другой надежный метод оценки.
Приглушите их, работая в трансформированном масштабе.
Преуменьшать их, используя функцию ссылки без идентификации.
Приспосабливайте их, подбирая подходящее распределение с толстым, длинным или тяжелым хвостом, без или с предикторами.
Приспособьтесь, используя индикатор или фиктивную переменную в качестве дополнительного предиктора в модели.
Обойти проблему, используя некоторую непараметрическую (например, основанную на ранге) процедуру.
Получите контроль над подразумеваемой неопределенностью, используя процедуру начальной загрузки, джекнифинга или перестановки.
Изменить, чтобы заменить выброс более вероятным значением, основанным на детерминированной логике. «18-летняя бабушка маловероятна, но человек, о котором идет речь, родился в 1932 году, поэтому, по-видимому, ему действительно 81 год».
Отредактируйте, чтобы заменить невозможный или неправдоподобный выброс, используя некоторый метод вменения, который в настоящее время является приемлемой не совсем белой магией.
Проанализируйте с и без, и посмотрите, как сильно отличаются выбросы, статистически, научно или практически.
Что-то байесовское. Мое предыдущее незнание того, что запрещает давать какие-либо подробности.
РЕДАКТИРОВАТЬ Это второе издание пользуется другими ответами и комментариями. Я пытался отметить свои источники вдохновения.
источник
Есть несколько проблем, связанных с вашим вопросом.
Ни один из 1-5 не имеет очевидного ответа. Если вы действительно чувствуете, что эти «выбросы» ошибочны, и вы не хотите использовать надежный статистический метод, вы можете исключить их и использовать множественное вменение как одно из возможных решений. Если переменная является зависимой переменной, одним из надежных вариантов является порядковая регрессия.
источник
В предложении есть множество недостатков. Вот, пожалуй, самый большой.
Предположим, вы собираете данные и видите эти значения:
Среднее значение пока составляет .6/3=2
Затем приходит выброс:
Таким образом, вы замените его на среднее:
Следующий номер хорош:
Теперь среднее значение равно 3. Подождите минуту, среднее значение теперь равно 3, но мы заменили 1000 на среднее значение 2 только потому, что это произошло как четвертое значение. Что если мы изменим порядок образцов?
Теперь среднее значение до 1000 составляет . Так мы должны заменить 1000 с этим средним значением?(2+3+1+7)/4=13/4
Проблема в том, что ложные данные, которые мы подставляем вместо 1000, зависят от других данных. Это эпистемологическая проблема, если образцы должны представлять независимые измерения.
Тогда у вас возникает очевидная проблема: вы не просто скрываете данные, которые не соответствуют вашим предположениям, но вы фальсифицируете их. Когда возникает какой-либо нежелательный результат, вы увеличиваете и подставляете поддельное значение. Это неправильно, потому что предполагается, что - это число выборок. Теперь представляет количество выборок плюс количество значений выдумки, добавленных к данным. Это в основном разрушает достоверность всех вычислений с участием : даже те, которые не используют значения выдумки. Ваш тоже значение выдумки!н н н н нn n n n n
По сути, обрезка результатов, которые не соответствуют, - это одно (и это может быть оправдано, если это делается последовательно в соответствии с алгоритмом, а не в соответствии с изменением настроения экспериментатора).
Прямые фальсифицирующие результаты нежелательны по философским, эпистемологическим и этическим соображениям.
Могут быть некоторые смягчающие обстоятельства, которые связаны с тем, как используются результаты. Как, например, скажем, что эта замена выбросов текущим средним значением является частью некоторого встроенного компьютерного алгоритма, который позволяет ему реализовать систему управления с обратной связью. (Он выбирает некоторые системные выходные данные, затем настраивает входные данные для достижения контроля.) Все в режиме реального времени, и поэтому что-то должно быть предоставлено в течение определенного периода времени вместо отсутствующих данных. Если эта помадка помогает преодолеть глюки и обеспечивает бесперебойную работу, то все хорошо.
Вот еще один пример из цифровой телефонии: ПЛК (маскировка потери пакетов). Дерьмо случается, и пакеты теряются, но общение происходит в реальном времени. PLC синтезирует фальшивые фрагменты голоса на основе последней информации основного тона из правильно принятых пакетов. Таким образом, если говорящий произносит гласную «aaa», а затем пакет теряется, PLC может дополнить отсутствующий пакет, экстраполируя «aaa» на длительность кадра (скажем, 5 или 10 миллисекунд или что-то еще). «Ааа» такова, что напоминает голос говорящего. Это аналогично использованию «среднего» для замены ценностей, считающихся плохими. Это хорошая вещь; это лучше, чем звук, включающий и отдающий, и помогает разборчивости.
Если фальсификация данных является частью программы лжи людям, чтобы скрыть неудачную работу, это нечто другое.
Таким образом, мы не можем думать об этом независимо от приложения: как используется статистика? Приведут ли замены к неверным выводам? Есть ли этические последствия?
источник
В этой статье Кузино и Шартье обсуждается замена выбросов на среднее
http://www.redalyc.org/pdf/2990/299023509004.pdf
Они пишут:
Существует также R-пакет "выбросы", который имеет функцию замены выбросов на среднее значение. Я также видел несколько обращений в моем поиске в Google, из которых следует, что SPSS также имеет такую функцию, но я не знаком с этой программой. Возможно, если вы будете следовать темам, вы сможете найти техническую основу для практики.
Ссылки
источник
Главное, что нужно иметь в виду при работе с выбросами, это то, предоставляют ли они полезную информацию. Если вы ожидаете, что они будут происходить на регулярной основе, то удаление их из данных гарантирует, что ваша модель никогда не предскажет их. Конечно, это зависит от того, что вы хотите, чтобы модель делала, но стоит иметь в виду, что вам не обязательно их отбрасывать. Если они содержат важную информацию, вы можете рассмотреть модель, которая может их учитывать. Один из простых способов сделать это - взять журналы переменных, которые могут учитывать отношения степенного закона. В качестве альтернативы, вы можете использовать модель, которая учитывает их, с полным распределением ошибок.
Если вы хотите вырезать их, то обычным способом является либо отбросить их, либо Winsorise их удалить экстремальные значения. У меня нет учебника, но там есть ссылки на вики, если вы хотите читать дальше. В большинстве текстов по прикладной статистике должен быть раздел о выбросах.
источник
Мне известны два взаимосвязанных похожих подхода в статистике.
Для более подробных примеров, смотрите Wikipedia:
https://en.wikipedia.org/wiki/Trimmed_estimator
https://en.wikipedia.org/wiki/Winsorising
Обратите внимание, что это хорошо работает для некоторой статистики, например, при вычислении среднего значения. Обрезанное / winsorized среднее часто является более точной оценкой истинного среднего, чем среднее арифметическое. В других случаях это может испортить вашу статистику. Например, при вычислении дисперсии обрезка всегда будет недооценивать вашу истинную дисперсию. Winsorization, если предположить, что некоторые экстремальные наблюдения действительно ошибочны, будет работать немного лучше (вероятно, все еще будет недооценивать, но не настолько).
Я не вижу, как замена экстремальных значений на среднее вписалась бы здесь.
Тем не менее, существует другая практика, которая связана с: вменение пропущенного значения . Предполагая, что ваши выбросы являются ошибочными, бесполезными данными, вы удалите их. Когда вы затем выполняете вменение, типичным значением замены будет среднее значение или режим:
https://en.wikipedia.org/wiki/Imputation_%28statistics%29
источник
Традиционный подход к обработке выбросов состоит в том, чтобы просто удалить их так, чтобы ваша модель обучалась только на «хороших» данных.
Имейте в виду, что среднее значение зависит от наличия этих выбросов. Если вы замените выбросы на среднее значение, рассчитанное после удаления выбросов из вашего набора данных , это не будет иметь никакого значения, поскольку линия регрессии (из простой линейной регрессии) все равно будет проходить через среднее значение ваших тренировочных данных (это уменьшит дисперсию вашего оценки, что, вероятно, противоположно тому, что вы хотите, учитывая, что вы знаете, что есть выбросы).
Влияние вашего подхода на модель зависит от влияния (влияния) выброса. Я бы рекомендовал против подхода, который вы предлагаете вместо того, чтобы просто полностью удалить точку.
источник
да, выбросы могут быть заменены в майских формах, например, давайте возьмем набор данных размера человеческих высот, скажем, у нас есть некоторые выбросы, такие как 500 см и 400 см, тогда мы можем просто заменить те точки данных, которые появляются в набор данных из-за какой-то ошибки, которая была вызвана во время записи данных. поэтому вы можете попробовать следующие варианты: 1. замените его на медиану всего цвета данных (не среднее значение, так как оно подвержено выбросам). 2. замените на наиболее часто встречающуюся точку данных в столбце. 3. Если категориальные значения, то вы можете попробовать кодирование ответа (в котором вы записываете вероятность слова или значения, встречающиеся по общему количеству слов).
источник