Связь между диапазоном и стандартным отклонением

В статье я нашел формулу для стандартного отклонения размера выборки $N$

$\sigma=\frac{\overline{R}}{2.534}$

где представляет собой среднее диапазон подвыборок (размер ) из основного образца. Как рассчитывается число ? Это правильный номер? $\overline{R}$ $6$ $2.534$

standard-deviation descriptive-statistics range Энди
источник

Ссылки, пожалуйста. Что еще более важно: 1. Здесь не может быть «правильного числа» независимо от типа дистрибутива, из которого вы черпаете. 2. Эти правила обычно исходят из интереса к кратким методам оценки УР по диапазону. Теперь у нас есть компьютеры .... Вы хотите сделать это и почему? Почему бы просто не использовать данные?

Ник Кокс

@ Ник Извините: вы были правы. Значение около

работает для стандартного отклонения, когда размер выборки составляет от

до

;

работает для образцов размером около

и т. Д. Я удалю свой предыдущий комментарий, чтобы он не смущал никого, кроме меня!

4

$4$

15

$15$

50

$50$

3

$3$

10

$10$

whuber

@NickCox это древнерусский источник, а я раньше не видел формулу.

Энди

Давать ссылки редко плохая идея. Пусть читатели сами решат, интересны они или доступны. (Здесь много людей, которые могут читать по-русски, например.)

Ник Кокс

Ответы:

$x$ $n$ $F$ $f$ $\min(x)=x_{[1]}$ $\max(x)=x_{[n]}$

f (x_{[1]}) {(F (x_{[n]}) - F (x_{[1]}))}^{n - 2} f (x_{[n]}) d x_{[1]} d x_{[n]} = H_{F} (x_{[1]}, x_{[n]}) d x_{[1]} d x_{[n]} .

$f(x_{[1]})\left(F(x_{[n]})-F(x_{[1]})\right)^{n-2}f(x_{[n]})dx_{[1]}dx_{[n]} = H_F(x_{[1]}, x_{[n]})dx_{[1]}dx_{[n]}.$

$\binom{n}{1,n-2,1} = n(n-1)$ $[x_{[1]},x_{[1]}+dx_{[1]})$ $[x_{[n]},x_{[n]}+dx_{[n]})$ $n-2$ $[x_{[1]}+dx_{[1]}, x_{[n]})$ $F$ $(x_{[1]}, x_{[n]}]$ $f(x_{[1]})dx_{[1]},$ $f(x_{[n]})dx_{[n]},$ $F(x_{[n]})-F(x_{[1]}),$

$x_{[n]} - x_{[1]}$ $2.53441\ \sigma$ $\sigma$ $n=6$ $\sigma$ $n$

Обычный

$\binom{n}{1,n-2,1}\left(y-x\right)H_F(x,y)dxdy$ $\{(x,y)\in\mathbb{R}^2|x\le y\}$ $F$ $F$ $1$

Подобное мультипликативное отношение между ожидаемым диапазоном и стандартным отклонением будет иметь место для любого семейства распределений масштаба расположения, потому что это свойство формы одного распределения. Например, вот сопоставимый график для равномерных распределений:

единообразный

и экспоненциальные распределения:

экспоненциальный

$f$ $F$ $\frac{n-1}{(n+1)}\sqrt{12}$ $\gamma + \psi(n) = \gamma + \frac{\Gamma'(n)}{\Gamma(n)}$ $\gamma$ $\psi$

$n=6$ $2.5$ $t$ $2.3$ $n=6$ $2.5$

Whuber
источник

2.53441 σ

$2.53441\sigma$

@Avraham Спасибо за яркие комментарии. Что меня поразило, когда я добавил графику, так это то, что действительно умной частью всего этого подхода является использование подвыборок шестого размера, потому что здесь все множители имеют тенденцию быть примерно одинаковыми, независимо от формы распределения.

whuber

Спасибо! Таблицы Типпета фактически дают соответствующий множитель для всех чисел от 2 до 1000. Он упоминает о проблемах с расчетами; Конечно, это было в 1925 году, за 20 лет до ENIAC.

Авраам

@whuber Можете ли вы показать, как было рассчитано число (2,534)?

Энди

Я отредактировал ответ, чтобы включить объяснения расчетов.

whuber

Это приближение очень близко к истинному стандартному отклонению выборки. Я написал быстрый скрипт R, чтобы проиллюстрировать это:

x = sample(1:10000,6000,replace=TRUE)

B = 100000
R = rep(NA,B)
for(i in 1:B){
    samp = sample(x,6)
    R[i] = max(samp)-min(samp)
}

mean(R)/2.534

sd(x)

что дает:

> mean(R)/2.534
[1] 2819.238
> 
> sd(x)
[1] 2880.924

Теперь я не уверен (пока), почему это работает, но, по крайней мере, выглядит (по номинальной стоимости), что приближение является достойным.

Изменить: см. Исключительный комментарий @ Whuber (выше) о том, почему это работает

источник

6

$6$

10 \sqrt{3} / 7 \approx 2.474

$10\sqrt{3}/7\approx 2.474$ mean(R)/2.474

2887.6

$2887.6$ sd(x)

Очень верно! > mean(R)/2.474 [1] 2887.611