Среднее гармоническое случайных величин определяется какHX1,...,Xn
H=11n∑ni=11Xi
Принимая моменты фракций грязный бизнес, так что вместо этого я предпочел бы работать с . Теперь1/H
1H=1n∑i=1n1Xi
.
Используя центральную предельную теорему, мы сразу получаем, что
n−−√(H−1−EX−11)→N(0,VarX−11)
если конечно и iid, так как мы просто работаем со средним арифметическим переменных .VarX−11<∞XiYi=X−1i
Теперь, используя дельта-метод для функции мы получаем, чтоg(x)=x−1
n−−√(H−(EX−11)−1)→N(0,VarX−11(EX−11)4)
Этот результат является асимптотическим, но для простых приложений этого может быть достаточно.
Обновление Как справедливо отмечает @whuber, простые приложения - это неправильное название. Центральная предельная теорема справедлива только в том случае, если существует , что является довольно ограничительным предположением.VarX−11
Обновление 2 Если у вас есть образец, то, чтобы рассчитать стандартное отклонение, просто включите моменты образца в формулу. Таким образом, для выборки оценка среднего гармоническогоX1,...,Xn
H^=11n∑ni=11Xi
моменты выборки и соответственно:EX−11Var(X−11)
μ^Rσ^2R=1n∑i=1n1Xi=1n∑i=1n(1Xi−μR)2
здесь означает взаимность.R
Наконец приближенная формула для стандартного отклонения являетсяH^
sd(H^)=σ^2Rnμ^4R−−−−⎷
Я провел несколько симуляций Монте-Карло для случайных величин, равномерно распределенных в интервале . Вот код:[2,3]
hm <- function(x)1/mean(1/x)
sdhm <- function(x)sqrt((mean(1/x))^(-4)*var(1/x)/length(x))
n<-1000
nn <- c(10,30,50,100,500,1000,5000,10000)
N<-1000
mc<-foreach(n=nn,.combine=rbind) %do% {
rr <- matrix(runif(n*N,min=2,max=3),nrow=N)
c(n,mean(apply(rr,1,sdhm)),sd(apply(rr,1,sdhm)),sd(apply(rr,1,hm)))
}
colnames(mc) <- c("n","DeltaSD","sdDeltaSD","trueSD")
> mc
n DeltaSD sdDeltaSD trueSD
result.1 10 0.089879211 1.528423e-02 0.091677622
result.2 30 0.052870477 4.629262e-03 0.051738941
result.3 50 0.040915607 2.705137e-03 0.040257673
result.4 100 0.029017031 1.407511e-03 0.028284458
result.5 500 0.012959582 2.750145e-04 0.013200580
result.6 1000 0.009139193 1.357630e-04 0.009115592
result.7 5000 0.004094048 2.685633e-05 0.004070593
result.8 10000 0.002894254 1.339128e-05 0.002964259
Я смоделировал N
образцы n
размера образца. Для каждой n
размерной выборки я рассчитал оценку стандартной оценки (функции sdhm
). Затем я сравниваю среднее значение и стандартное отклонение этих оценок со стандартным отклонением выборки среднего гармонического значения, оцененного для каждой выборки, которое, предположительно, должно быть истинным стандартным отклонением среднего значения гармоник.
Как видите, результаты довольно хороши даже для умеренных размеров выборки. Конечно, равномерное распределение очень хорошо себя ведет, поэтому неудивительно, что результаты хорошие. Я оставлю кого-то еще, чтобы исследовать поведение других дистрибутивов, код очень легко адаптировать.
Примечание. В предыдущей версии этого ответа в результате дельта-метода произошла ошибка - неверная дисперсия.
Мой ответ на связанный вопрос указывает на то, что среднее гармоническое для набора положительных данных является оценкой взвешенных наименьших квадратов (WLS) (с весами ). Поэтому вы можете вычислить его стандартную ошибку, используя методы WLS. Это имеет некоторые преимущества, в том числе простоту, универсальность и интерпретируемость, а также автоматически генерируется любым статистическим программным обеспечением, которое позволяет использовать весовые коэффициенты при расчете регрессии.xi 1/xi
Основным недостатком является то, что расчет не дает хороших доверительных интервалов для сильно искаженных базовых распределений. Это может быть проблемой для любого метода общего назначения: среднее гармоническое чувствительно к присутствию даже одного крошечного значения в наборе данных.
Чтобы проиллюстрировать это, здесь приведены эмпирические распределения независимо сгенерированных выборок размером из гамма-распределения (5), который слегка скручен. Синие линии показывают среднее истинное значение гармоники (равное ), а красные пунктирные линии показывают взвешенные оценки наименьших квадратов. Вертикальные серые полосы вокруг синих линий - это приблизительные двусторонние 95% доверительные интервалы для среднего гармонического значения. В этом случае во всех выборках CI охватывает истинное среднее гармоническое. Повторения этого моделирования (со случайными семенами) предполагают, что охват близок к предполагаемому уровню 95%, даже для этих небольших наборов данных.20 n=12 4 20
Вот
R
код для симуляции и цифры.источник
Вот пример для экспоненциального р.в.
Среднее значение гармоники для точек данных определяется какn
Предположим , у вас есть независимые одинаково распределенные образцы с случайной величины экспоненциальной, . Сумма экспоненциальных переменных следует гамма-распределениюn Xi∼Exp(λ) n
где . Мы также знаем, чтоθ=1λ
Распределение поэтомуS
Дисперсия (и стандартное отклонение) этого значения хорошо известны, см., Например, здесь .
источник
Существует опасение , что mpiktas CLT требует игрового ограниченную дисперсии на . Это правда, что имеет сумасшедшие хвосты, когда имеет положительную плотность около нуля. Однако во многих приложениях используется гармоническое среднее . Здесь ограничен , давая вам все моменты, которые вы хотите!1 / X X X ≥ 1 1 / X 11/X 1/X X X≥1 1/X 1
источник
Я бы предложил использовать следующую формулу вместо стандартного отклонения:
где . Приятно то, что эта формула минимизируется, когда , и имеет те же единицы измерения, что и стандартное отклонение ( те же единицы, что и у ). х=Нx^=N∑1xi x^=N∑1xi x
Это аналогично стандартному отклонению, которое представляет собой значение, которое принимает, когда оно свернуто над , Оно минимизируется, когда является средним значением: .ххх=μ=11N∑(x^−xi)2−−−−−−−−−−−√ x^ x^ x^=μ=1N∑xi
источник