Общий подход для оценки параметров нормального распределения заключается в использовании среднего значения и стандартного отклонения / дисперсии выборки.
Однако, если есть некоторые выбросы, медиана и срединное отклонение от медианы должны быть намного более устойчивыми, верно?
На некоторых наборах данных я пытался, нормальное распределение , оцененное , кажется, производит гораздо лучшее прилегание , чем классический , используя среднее и Среднеквадратичное отклонение
Есть ли причина не использовать медиану, если вы предполагаете, что в наборе данных есть некоторые выбросы? Знаете ли вы некоторые ссылки для этого подхода? Быстрый поиск в Google не нашел мне полезных результатов, которые обсуждают преимущества использования медиан здесь (но очевидно, что «медиана оценки параметров нормального распределения» не очень специфический набор поисковых терминов).
Срединное отклонение, это предвзято? Должен ли я умножить его на чтобы уменьшить смещение?
Знаете ли вы похожие подходы надежной оценки параметров для других распределений, таких как гамма-распределение или экспоненциально модифицированное гауссово распределение (которому требуется асимметрия в оценке параметров, а выбросы действительно портят это значение)?
Ответы:
Замечание, что в примере с данными, полученными из загрязненного гауссовского распределения, вы получите более точные оценки параметров, описывающих объем данных, используя вместо med | х - мед ( х ) | где безумный ( х ) это:mad med|x−med(x)| mad(x)
- где, - это коэффициент согласованности, разработанный для обеспечения того, чтобы E ( mad ( x ) 2 ) = Var ( x ), когда х не загрязнен, - изначально было сделано Гауссом (Уокер) H. (1931)).(Φ−1(0.75))−1=1.4826
Я не могу думать о какой - либо причине не использовать вместо выборочного среднего в данном случае. Более низкая эффективность (по Гауссу!) Сумасшедших может быть причиной не использовать сумасшедшие в вашем примере. Однако существуют такие же надежные и высокоэффективные альтернативы безумным . Одним из них является Q nmed mad mad mad Qn , Этот оценщик имеет много других преимуществ, кроме. Он также очень нечувствителен к выбросам (фактически почти так же нечувствителен, как и к безумным). Вопреки безумному, он не построен вокруг оценки местоположения и не предполагает, что распределение незагрязненной части данных симметрично. Как и сумасшедший, он основан на статистике заказов, так что он всегда четко определен, даже если в исходном распределении вашей выборки нет моментов. Как и безумный, он имеет простую явную форму. Даже больше, чем для сумасшедших, я не вижу причин использовать стандартное отклонение образца вместо в примере, который вы описываете (см. Rousseeuw и Croux 1993 для получения дополнительной информации о Q n ).Qn Qn
и
и
См. Чен и Рубин (1986) для полного вывода.
источник
Если, как вы утверждаете, данные являются нормальными, за исключением некоторой небольшой доли выбросов, медиана и медиана абсолютного отклонения будут устойчивы к грубым ошибкам, но не будут очень эффективно использовать информацию в посторонних данных.
Если бы вы знали некоторые априорные ограничения на долю выбросов, вы могли бы обрезать эту пропорцию до среднего и Winsorize стандартное отклонение. Альтернативой, которая не требует таких знаний, будет использование M-оценок для определения местоположения и связанных величин для дисперсии. Повышение эффективности, если ваши предположения верны (например, данные действительно нормальные, за исключением небольшого процента выбросов), могут в некоторых случаях быть существенными.
Среднее отклонение смещено как оценка стандартного отклонения - но не какnn−1
источник