Чтобы охарактеризовать количество двумерной дисперсии вокруг центроида, вы просто хотите получить среднеквадратичное расстояние (корень),
σ^= RMS = 1NΣя( ( хя- х¯)2+ ( уя- у¯)2)-----------------------√,
В этой формуле - координаты точки, а их центроид (точка средних) - ( ˉ x , ˉ y ) .( хя, уя) , i = 1 , 2 , … , n( х¯, у¯) .
Вопрос требует распределения расстояний. Когда шары имеют изотропное двумерное нормальное распределение вокруг их центроида - что является стандартным и физически обоснованным предположением - квадрат расстояния пропорционален распределению хи-квадрат с двумя степенями свободы (по одной для каждой координаты). Это является прямым следствием одного определения распределения хи-квадрат как суммы квадратов независимых стандартных нормальных переменных, потому что - линейная комбинация независимых нормальных переменных с ожиданиемE[xi- ˉ x ]=n-1
Икся- х¯= n - 1NИкся- ∑J ≠ я1NИксJ
Записать общую дисперсию
xiкак
σ2,
E[(xi- ˉ x )2]=Var(xi- ˉ x )=( n - 1Э [ хя- х¯] = n - 1NЭ [ хя] - ∑J ≠ я1NЭ [ хJ] = 0.
Иксяσ2 Предположение об анизотропии состоит в том, что у
yjимеют такое же распределение, что и
xi,и не зависят от них, поэтому для распределения
(yj- ˉ y )2имеет место одинаковый результат. Это устанавливает константу пропорциональности:
квадраты расстояний имеют распределение хи-квадрат с двумя степенями свободы, масштабированное поn-1E[(xi−x¯)2]=Var(xi−x¯)=(n−1n)2Var(xi)+∑j≠i(1n)2Var(xj)=n−1nσ2.
yjxi(yj−y¯)2.n−1nσ2
n=2n−1n1n=2n=40
σ1
n=2n=40
σ2n−1nσ2χ222n=40σ24039/2σ40/78−−−−−√χ22
13n=401,2,…,10n−1nσ^2
0.3932 0.6320 0.7767 0.8647 0.9178 0.9504 0.9700 0.9818 0.9890 0.9933
Теоретические пропорции
0.3935 0.6321 0.7769 0.8647 0.9179 0.9502 0.9698 0.9817 0.9889 0.9933
Соглашение отлично.
Вот R
код для проведения и анализа моделирования.
f <- function(n, n.iter, x.min=0, x.max=Inf, plot=TRUE) {
#
# Generate `n.iter` experiments in which `n` locations are generated using
# standard normal variates for their coordinates.
#
xy <- array(rnorm(n*2*n.iter), c(n.iter,2,n))
#
# Compute the squared distances to the centers for each experiment.
#
xy.center <- apply(xy, c(1,2), mean)
xy.distances2 <- apply(xy-array(xy.center, c(n.iter,2,n)), c(1,3),
function(z) sum(z^2))
#
# Optionally plot histograms.
#
if(plot) {
xy.plot <- xy.distances2[xy.distances2 >= x.min & xy.distances2 <= x.max]
hist(log(xy.plot), prob=TRUE, breaks=30,
main=paste("Histogram of log squared distance, n=", n),
xlab="Log squared distance")
curve(dchisq(n/(n-1) * exp(x), df=2) * exp(x) * n/(n-1),
from=log(min(xy.plot)), to=log(max(xy.plot)),
n=513, add=TRUE, col="Red", lwd=2)
hist(xy.plot, prob=TRUE, breaks=30,
main=paste("Histogram of squared distance, n=", n),
xlab="Squared distance")
curve(n/(n-1) * dchisq(n/(n-1) * x, df=2),
from=min(xy.plot), to=max(xy.plot),
n=513, add=TRUE, col="Red", lwd=2)
}
return(xy.distances2)
}
#
# Plot the histograms and compare to scaled chi-squared distributions.
#
par(mfrow=c(2,2))
set.seed(17)
xy.distances2 <- f(2, 10^5, exp(-6), 6)
xy.distances2 <- f(n <- 40, n.iter <- 50000, exp(-6), 12)
#
# Compare the last simulation to cumulative chi-squared distributions.
#
sigma.hat <- sqrt((n / (2*(n-1)) * mean(xy.distances2)))
print(cumsum(tabulate(cut(xy.distances2,
(0:10) * (n-1)/n * sigma.hat^2))) / (n*n.iter), digits=4)
print(pchisq(1:10, df=2), digits=4)
Я думаю, что вы немного запутались. Это правда, что расстояние не может быть отрицательным, но это не влияет на расчет стандартного отклонения. Хотя это означает, что распределение расстояний не может быть совершенно нормальным, оно все равно может быть близким; но даже если это далеко от нормы, все равно есть стандартное отклонение.
Также не существует «одностороннего» стандартного отклонения - вы можете подумать о проверке гипотез (которая может быть односторонней или двусторонней). В своем названии вы говорите, что среднее значение равно 0, но среднее расстояние не будет равно 0 (если шары не в стеке высотой 40 шаров!), И вы говорите, что есть ограничения - могут быть ограничения, если шары будут брошены в комната, тогда они не могут быть дальше от центра, чем расстояние до ближайшей стены. Но если некоторые шары не отскочат от стены, это не повлияет на вещи.
Итак, когда у вас есть 40 расстояний, вы вычисляете стандартное отклонение (и среднее значение, медиану, диапазон между четвертями и т. Д.), Используя стандартные методы. Вы также можете сделать графики расстояния (например, квантиль нормальный график, рамочный график), чтобы увидеть, является ли оно примерно нормально распределенным (если это представляет интерес).
источник
Прошло много времени с тех пор, как об этом спросили, но ответ на вопрос заключается в том, что это 2D-распределение, называемое распределением Рэлея. Здесь предполагается, что коэффициент формы Рэлея равен обоим стандартным отклонениям координат X и Y. На практике значение коэффициента формы будет рассчитываться из объединенного среднего значения стандартного отклонения X и Y.
Конечно это для непрерывного распределения. Для образца из 40 шаров нет точного решения. Вам нужно будет провести анализ Монте-Карло с образцом из 40 шаров. Taylor, MS & Grubbs, Frank E. (1975). В «Приближенном распределении вероятностей для экстремального разброса» найдены оценки для распределения Хи и логарифмически нормальное для этого распределение, соответствующее распределению выборки.
Редактировать - Несмотря на сомнения Вубера, теоретические пропорции, которые он рассчитал:
0,3935 0,6321 0,7769 0,8647 0,9179 0,9502 0,9698 0,9817 0,9889 0,9933
Из функции CDF совокупные значения сигмы для r (в сигмах) равны диапазону от:
0-1, 0-2, 0-3, ..., 0-10
находятся:
0,3935, 0,6321, 0,7769, 0,8647, 0,9179, 0,9502, 0,9698, 0,9817, 0,9889, 0,9933
источник
Нормальное распределение, как положительные, так и отрицательные значения, имеет смысл, если вы признаете, что это нормальное распределение для радиуса или «расстояния от центроида». Другая переменная, угол, является случайной и равномерно распределена от 0-пи
источник