Я использую обычный оценщик для , но я заметилчто даже небольшие «выбросы» в моем эмпирическом распределении, то есть небольшие пики далеко от центра, влияютего чрезвычайно. Существует ли более надежная оценка эксцесса?
Есть несколько. В этой ссылке вы найдете исчерпывающее сравнение с версией статьи без документации (соответствующая ссылка внизу этого ответа).
Из-за ограничений задачи разбивка наиболее надежных из этих алгоритмов (L / RMC) составляет не более 12,5%. Преимущество L / RMC состоит в том, что он основан на квантилях и остается интерпретируемым, даже если в базовом распределении нет моментов. Другое преимущество состоит в том, что он не предполагает симметрию распределения незагрязненной части данных для измерения веса хвоста: фактически, алгоритм возвращает два числа: RMC для веса правого хвоста и LMC для веса левого хвоста.
по конструкции: никакое количество загрязнения не может, например, заставить алгоритм вернуть -1!). На практике можно обнаружить, что можно заменить около 5% выборки даже очень патологическими выбросами, не заставляя наиболее затронутые оценки (их всегда две) слишком сильно отклоняться от значения, которое было у незагрязненной выборки.
L / RMC также широко применяется. Например, вы можете найти реализацию R здесь . Как объяснено в статье, приведенной выше, чтобы вычислить L / RMC, вам нужно вычислить MC (оценщик, реализованный в ссылке) отдельно для левой и правой половины ваших данных. Здесь (левая) правая половина - это подвыборки, сформированные из наблюдения (меньшего), большего, чем медиана вашей исходной выборки.