Рассмотрим случайный набор чисел, которые обычно распределяются:
x <- rnorm(n=1000, mean=10)
Нам бы хотелось знать среднее и стандартную ошибку на среднем, поэтому мы делаем следующее:
se <- function(x) { sd(x)/sqrt(length(x)) }
mean(x) # something near 10.0 units
se(x) # something near 0.03 units
Большой!
Однако, давайте предположим, что мы не обязательно знаем, что наш оригинальный дистрибутив следует нормальному. Мы лог-трансформируем данные и выполняем те же стандартные вычисления ошибок.
z <- log(x, base=10)
mean(z) # something near 1 log units
se(z) # something near 0.001 log units
Круто, но теперь нам нужно обратное преобразование, чтобы получить ответ в единицах, а не в логах.
10^mean(z) # something near 10.0 units
10^se(z) # something near 1.00 units
Мой вопрос: почему для нормального распределения стандартная ошибка отличается в зависимости от того, была ли она рассчитана из самого распределения или была ли она преобразована, рассчитана и обратно преобразована? Примечание: средства вышли одинаковыми независимо от трансформации.
РЕДАКТИРОВАТЬ # 1: В конечном счете, я заинтересован в вычислении среднего и доверительных интервалов для не нормально распределенных данных, так что, если вы можете дать некоторые рекомендации о том, как рассчитать 95% CI для преобразованных данных, включая способы обратного преобразования в их собственные единицы , Буду премного благодарен!
КОНЕЦ РЕДАКТИРОВАНИЯ № 1
РЕДАКТИРОВАТЬ # 2: я попытался использовать функцию квантиля, чтобы получить 95% доверительные интервалы:
quantile(x, probs = c(0.05, 0.95)) # around [8.3, 11.6]
10^quantile(z, probs = c(0.05, 0.95)) # around [8.3, 11.6]
Итак, это сходится на том же ответе, что хорошо. Однако использование этого метода не дает точно такой же интервал, используя ненормальные данные с «маленькими» размерами выборки:
t <- rlnorm(10)
mean(t) # around 1.46 units
10^mean(log(t, base=10)) # around 0.92 units
quantile(t, probs = c(0.05, 0.95)) # around [0.211, 4.79]
10^(quantile(log(t, base=10), probs = c(0.05, 0.95))) # around [0.209, 4.28]
Какой метод будет считаться «более правильным». Я полагаю, можно было бы выбрать наиболее консервативную оценку?
В качестве примера, могли бы вы сообщить, что этот результат для ненормальных данных (t) имеет среднее значение 0,92 единиц с 95% доверительным интервалом [0,211, 4,79]?
КОНЕЦ РЕДАКТИРОВАНИЯ № 2
Спасибо за ваше время!
источник
Ответы:
Ваша главная проблема с первоначальным вычислением - нет веской причины, по которой должен быть похож на . Это вообще совсем другое.есд ( лог( Y) ) сд ( Y)
В некоторых ситуациях вы можете вычислить грубое приближение из помощью расширения Тейлора .сд ( Y) сд ( лог( Y) )
Если мы считаем случайной величиной в логарифмическом масштабе, то здесьX g(X)=exp(X)
ЕслиVar(exp(X))≈exp(μX)2σ2X
затемsd(exp(X))≈exp(μX)σX
Эти понятия распространяются на выборочные распределения.
Это имеет тенденцию работать достаточно хорошо, если стандартное отклонение действительно мало по сравнению со средним, как в вашем примере.
Если вы хотите преобразовать CI для параметра , он работает путем преобразования конечных точек.
Если вы пытаетесь преобразовать обратно, чтобы получить точечную оценку и интервал для среднего значения по исходной (непогашенной) шкале, вы также захотите отменить оценку среднего (см. Ссылку выше): , поэтому ( очень ) грубый большой интервал выборки для среднего значения может быть , где - верхний и нижний пределы интервала логарифмического масштаба, а - некоторая непротиворечивая оценка .E(exp(X))≈exp(μX)⋅(1+σ2X/2) (c.exp(L),c.exp(U)) L,U c 1+σ2X/2
Если ваши данные примерно нормальны в масштабе журнала, вы можете рассматривать их как проблему получения интервала для логнормального среднего.
источник
Похоже, вы действительно хотите геометрическую стандартную ошибку, сродни геометрической средней
exp(mean(log(x)))
.Хотя может показаться разумным вычислить это как:
Вы и другие уже указали, что это не правильно по нескольким причинам. Вместо этого используйте:
Это среднее геометрическое значение, умноженное на стандартную ошибку логарифма. Это должно очень хорошо аппроксимировать «естественную» стандартную ошибку.
Источник: https://www.jstor.org/stable/pdf/2235723.pdf
источник