Что такого интригующего в этом результате, так это то, насколько он похож на распределение коэффициента корреляции. Есть причина.
Предположим, что является двумерной нормой с нулевой корреляцией и общей дисперсией для обеих переменных. Нарисуйте пример iid . Хорошо известно и легко установить геометрически (как это сделал Фишер столетие назад), что распределение коэффициента корреляции выборки(X,Y)σ2(x1,y1),…,(xn,yn)
r=∑ni=1(xi−x¯)(yi−y¯)(n−1)SxSy
является
f(r)=1B(12,n2−1)(1−r2)n/2−2, −1≤r≤1.
(Здесь, как обычно, и являются выборочными средними и и являются квадратными корнями из дисперсии несмещенных оценок.) это бете - функция , для которойx¯y¯SxSyB
1B(12,n2−1)=Γ(n−12)Γ(12)Γ(n2−1)=Γ(n−12)π−−√Γ(n2−1).(1)
Чтобы вычислить , мы можем использовать его инвариантность относительно вращений в вокруг линии, генерируемой , наряду с инвариантностью распределения выборки при тех же поворотах, и выберите для любого единичного вектора, компоненты которого суммируются с нулем. Один такой вектор пропорционален . Его стандартное отклонениеrRn(1,1,…,1)yi/Syv=(n−1,−1,…,−1)
Sv=1n−1((n−1)2+(−1)2+⋯+(−1)2)−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√=n−−√.
Следовательно, должно иметь то же распределение, что иr
∑ni=1(xi−x¯)(vi−v¯)(n−1)SxSv=(n−1)x1−x2−⋯−xn(n−1)Sxn−−√=n(x1−x¯)(n−1)Sxn−−√=n−−√n−1Z.
Поэтому все, что нам нужно, это изменить масштаб чтобы найти распределение :rZ
fZ(z)=∣∣n−−√n−1∣∣f(n−−√n−1z)=1B(12,n2−1)n−−√n−1(1−n(n−1)2z2)n/2−2
для . Формула (1) показывает, что это идентично вопросу.|z|≤n−1n√
Не совсем убежден? Вот результат моделирования этой ситуации 100 000 раз (при , где распределение равномерно).n=4
Первая гистограмма отображает коэффициенты корреляции а вторая гистограмма отображает коэффициенты корреляции для случайно выбранного вектор который остается фиксированным для всех итераций. Они оба одинаковы. QQ-график справа подтверждает, что эти распределения в основном идентичны.(xi,yi),i=1,…,4(xi,vi),i=1,…,4) vi
Вот R
код, который создал сюжет.
n <- 4
n.sim <- 1e5
set.seed(17)
par(mfrow=c(1,3))
#
# Simulate spherical bivariate normal samples of size n each.
#
x <- matrix(rnorm(n.sim*n), n)
y <- matrix(rnorm(n.sim*n), n)
#
# Look at the distribution of the correlation of `x` and `y`.
#
sim <- sapply(1:n.sim, function(i) cor(x[,i], y[,i]))
hist(sim)
#
# Specify *any* fixed vector in place of `y`.
#
v <- c(n-1, rep(-1, n-1)) # The case in question
v <- rnorm(n) # Can use anything you want
#
# Look at the distribution of the correlation of `x` with `v`.
#
sim2 <- sapply(1:n.sim, function(i) cor(x[,i], v))
hist(sim2)
#
# Compare the two distributions.
#
qqplot(sim, sim2, main="QQ Plot")
Ссылка
Р.А. Фишер. Распределение частот значений коэффициента корреляции в выборках из неопределенно большой популяции . Биометрика , 10 , 507. См. Раздел 3. (Цитируется в Продвинутой теории статистики Кендалла , 5-е издание, раздел 16.24.)
Я хотел бы предложить этот способ, чтобы получить pdf для Z, непосредственно вычисляя MVUE для используя теорему Байеса, хотя это немного и сложно.P(X≤c)
Так как и , являются совместной полной статистикой, MVUE для было бы так:E[I(−∞,c)(X1)]=P(X1≤c) Z1=X¯ Z2=S2 P(X≤c)
Теперь, используя теорему Байеса, мы получаем
Знаменатель можно записать в закрытом виде, поскольку , не зависят друг от друга.fZ1,Z2(z1,z2)=fZ1(z1)fZ2(z2) Z1∼N(μ,σ2n) Z2∼Γ(n−12,2σ2n−1)
Чтобы получить закрытую форму числителя, мы можем принять статистику:
которое представляет собой среднее значение и выборочную дисперсию и они не зависят друг от друга, а также не зависят от . Мы можем выразить это через .X2,X3,...,Xn X1 Z1,Z2
Мы можем использовать преобразование, когда ,X1=x1
Поскольку , мы можем получить закрытую форму этого. Обратите внимание, что это верно только для который ограничивает до .W1∼N(μ,σ2n−1) W2∼Γ(n−22,2σ2n−2) w2≥0 x1 z1−n−1n√z2−−√≤x1≤z1+n−1n√z2−−√
Так что сложите их вместе, экспоненциальные условия исчезнут, и вы получите,
Исходя из этого, на данный момент мы можем получить PDF из используя преобразование.Z=X1−z1z2√
Кстати, MVUE будет выглядеть следующим образом: а и будет 1, если
Я не являюсь носителем английского языка, и могут быть некоторые неловкие предложения. Я изучаю статистику самостоятельно с введением учебника в математическую статистику Хогга. Таким образом, могут быть некоторые грамматические или математические концептуальные ошибки. Было бы полезно, если бы кто-то исправил их.
Спасибо за чтение.
источник