Связь между диапазоном и стандартным отклонением

14

В статье я нашел формулу для стандартного отклонения размера выборки N

σ=R¯2.534

где представляет собой среднее диапазон подвыборок (размер 6 ) из основного образца. Как рассчитывается число 2.534 ? Это правильный номер?R¯62.534

Энди
источник
6
Ссылки, пожалуйста. Что еще более важно: 1. Здесь не может быть «правильного числа» независимо от типа дистрибутива, из которого вы черпаете. 2. Эти правила обычно исходят из интереса к кратким методам оценки УР по диапазону. Теперь у нас есть компьютеры .... Вы хотите сделать это и почему? Почему бы просто не использовать данные?
Ник Кокс
3
@ Ник Извините: вы были правы. Значение около работает для стандартного отклонения, когда размер выборки составляет от 15 до 50 ; 3 работает для образцов размером около 10 и т. Д. Я удалю свой предыдущий комментарий, чтобы он не смущал никого, кроме меня! 41550310
whuber
1
@NickCox это древнерусский источник, а я раньше не видел формулу.
Энди
3
Давать ссылки редко плохая идея. Пусть читатели сами решат, интересны они или доступны. (Здесь много людей, которые могут читать по-русски, например.)
Ник Кокс

Ответы:

17

xnFfmin(x)=x[1]max(x)=x[n]

f(x[1])(F(x[n])F(x[1]))n2f(x[n])dx[1]dx[n]=HF(x[1],x[n])dx[1]dx[n].

(n1,n2,1)=n(n1)[x[1],x[1]+dx[1])[x[n],x[n]+dx[n])n2[x[1]+dx[1],x[n])F(x[1],x[n]]f(x[1])dx[1], f(x[n])dx[n],F(x[n])F(x[1]),

x[n]x[1]2.53441 σσn=6σn

Обычный

(n1,n2,1)(yx)HF(x,y)dxdy{(x,y)R2|xy}FF1

Подобное мультипликативное отношение между ожидаемым диапазоном и стандартным отклонением будет иметь место для любого семейства распределений масштаба расположения, потому что это свойство формы одного распределения. Например, вот сопоставимый график для равномерных распределений:

единообразный

и экспоненциальные распределения:

экспоненциальный

fFn1(n+1)12γ+ψ(n)=γ+Γ(n)Γ(n)γψ

n=62.5t2.3n=62.5

Whuber
источник
6
2.53441σ
@Avraham Спасибо за яркие комментарии. Что меня поразило, когда я добавил графику, так это то, что действительно умной частью всего этого подхода является использование подвыборок шестого размера, потому что здесь все множители имеют тенденцию быть примерно одинаковыми, независимо от формы распределения.
whuber
Спасибо! Таблицы Типпета фактически дают соответствующий множитель для всех чисел от 2 до 1000. Он упоминает о проблемах с расчетами; Конечно, это было в 1925 году, за 20 лет до ENIAC.
Авраам
@whuber Можете ли вы показать, как было рассчитано число (2,534)?
Энди
Я отредактировал ответ, чтобы включить объяснения расчетов.
whuber
4

Это приближение очень близко к истинному стандартному отклонению выборки. Я написал быстрый скрипт R, чтобы проиллюстрировать это:

x = sample(1:10000,6000,replace=TRUE)

B = 100000
R = rep(NA,B)
for(i in 1:B){
    samp = sample(x,6)
    R[i] = max(samp)-min(samp)
}

mean(R)/2.534

sd(x)

что дает:

> mean(R)/2.534
[1] 2819.238
> 
> sd(x)
[1] 2880.924

Теперь я не уверен (пока), почему это работает, но, по крайней мере, выглядит (по номинальной стоимости), что приближение является достойным.

Изменить: см. Исключительный комментарий @ Whuber (выше) о том, почему это работает


источник
1
6103/72.474mean(R)/2.4742887.6sd(x)
Очень верно! > mean(R)/2.474 [1] 2887.611