Как найти стандартное отклонение стандартного отклонения выборки от нормального распределения?

11

Простите, если я что-то упустил довольно очевидное.

Я физик с распределением (по гистограмме), сосредоточенным вокруг среднего значения, которое приближается к нормальному распределению. Важным значением для меня является стандартное отклонение этой гауссовской случайной величины. Как бы я попытался найти ошибку в стандартном отклонении выборки? Я чувствую, что это как-то связано с ошибкой на каждом бине в исходной гистограмме.

загар
источник
Подсказка предоставляется по адресу stats.stackexchange.com/questions/26924 . В общем, ошибка выборки дисперсии может быть вычислена в терминах первых четырех моментов распределения, и, следовательно, ошибка выборки SD может быть по меньшей мере оценена по этим моментам.
whuber

Ответы:

12

Похоже, вы просите вычислить стандартное отклонение стандартного отклонения выборки. То есть вы просите , гдеSD(s)знак равноvaр(s)

sзнак равно1N-1Σязнак равно1N(Икся-Икс¯),

и ¯ Х представляет собой выборочное среднее.Икс1,,,,,ИксN~N(μ,σ2)Икс¯

Во-первых, мы знаем из основных свойств дисперсии, что

vaр(s)знак равноЕ(s2)-Е(s)2

Поскольку выборочная дисперсия несмещена, мы знаем . В Почему стандартное отклонение выборки является смещенной оценкой σ ? , E ( s ) рассчитывается, из чего мы можем сделать выводЕ(s2)знак равноσ2σЕ(s)

Е(s)2знак равно2σ2N-1(Γ(N/2)Γ(N-12))2

следовательно

SD(s)=E(s2)E(s)2=σ12n1(Γ(n/2)Γ(n12))2
макрос
источник
Хорошая точка зрения. Я получил оценку дисперсии s ^ 2. Взятие квадратного корня дает оценку стандартного отклонения s ^ 2. Но вы ответили на фактический вопрос, который должен был получить стандартное отклонение s. Я бы предположил, что по практическим причинам вы должны заменить σ на s, чтобы получить оценку по формуле.
Майкл Р. Черник
Да, верно, вы можете заменить на s, и это приближение хорошо работает даже для скромных размеров выборки - я провел некоторое тестирование с n = 20 . σsn=20
Макрос
11

Величина имеет распределение хи-квадрат с n - 1 степенями свободы, когда выборки независимы и распределены с одинаковым нормальным распределением. Эта величина может использоваться для получения доверительных интервалов для дисперсия нормали и ее стандартное отклонение. Если у вас есть необработанные значения, а не только центральное значение бинов, вы можете вычислить s 2 . X=(n1)s2/σ2n1s2

Известно, что если имеет распределение хи-квадрат с n - 1 степенями свободы, то его дисперсия равна 2 ( n - 1 ) . Зная это и тот факт, что V a r ( c X ) = c 2 V a r ( X ), мы получаем, что s 2 имеет дисперсию, равную 2 ( n - 1 ) σ 4Xn12(n1)Var(cX)=c2Var(X)s2 Хотя σ 4 неизвестно, вы можете приблизить его к s 4, и у вас есть приблизительное представление о том, что такое дисперсия s 2 .

2(n1)σ4(n1)2=2σ4n1,
σ4s4s2
Майкл Р. Черник
источник
Я собирался опубликовать это в начале, но проблема, как я вижу здесь, состоит в том, что неизвестен. Принимая во внимание этот факт, я не знаю, действительно ли оно приближенно к s 4σ 4, если мы даже не знаем размер выборки. Напомню, что можно показать, что у четвертого момента могут быть серьезные проблемы с выбросами. σ2s4σ4
Нестор
- непротиворечивая оценка σ 4 (при условии, что σ 4 существует), верно @Nesp? Я думаю, что обычно это подразумевается, когда люди говорят «приблизительная» или «грубая идея». s4σ4σ4
Макрос
2
Может быть, недостаток сна, но разве это не похоже на круговые рассуждения?
Нестор
С самого начала мы предполагали, что данные поступают из нормального распределения, поэтому проблем с выбросами нет. Я имел в виду грубо, как предлагает Макро. Я согласен, что размер выборки влияет на то, насколько близко s ^ 4 к σ ^ 4. Но беспокойство о выбросах не основано на Nesp. Если вы за это проголосовали против меня, я думаю, это очень несправедливо. То, что я представил, было стандартным способом оценки стандартного отклонения для s ^ 2, когда данные НОРМАЛЬНО РАСПРЕДЕЛЕНЫ.
Майкл Р. Черник
@Nesp, Майкл дал последовательную оценку дисперсии стандартного отклонения выборки от нормально распределенной выборки - для больших выборок это будет хорошо - смоделируйте это и узнайте. Я не уверен, почему вы думаете, что это круговые рассуждения.
Макрос
7

σ

x=(x1,...,xn)(μ,σ)

L(μ,σ)1σnexp(12σ2j=1n(xjμ)2)

(μ^,σ^)=(x¯,s)s=1nj=1n(xjx¯)2σ

Rp(σ)=supμL(μ,σ)L(μ^,σ^)=(σ^σ)nexp[n2(1(σ^σ)2)]

Rp:R+(0,1]0.1470.95R

data = rnorm(30)
n = length(data)
sg = sqrt(mean((data-mean(data))^2))
# Profile likelihood
rp = function(sigma) return( (sg/sigma)^n*exp(0.5*n*(1-(sg/sigma)^2))  )
vec = rvec = seq(0.5,1.5,0.01)
for(i in 1:length(rvec)) rvec[i] = rp(vec[i])
plot(vec,rvec,type="l")
rpc = function(sigma) return(rp(sigma)-0.147)
# Approximate 95% confidence interval
c(uniroot(rpc,c(0.7,0.8))$root,uniroot(rpc,c(1.1,1.3))$root)

σI=(L,U)σ2I=(L2,U2)


источник
Я думаю, что он действительно хотел стандартное отклонение s.
Майкл Р. Черник