За каким распределением следует обратный нормальный CDF бета-случайной величины?

14

Предположим, вы определили:

XBeta(α,β)

YΦ1(X)

где Φ1 - обратная величина CDF стандартного нормального распределения .

Мой вопрос: существует ли простое распределение, за которым следует , или которое может приближаться к ? YYЯ спрашиваю, потому что у меня есть сильное подозрение, основанное на результатах моделирования (показанных ниже), что Y сходится к нормальному распределению, когда α и β высоки, но я не знаю, почему это было бы математически. (Конечно, когда α=1;β=1 , X будет равномерным, а Y будет стандартной нормалью, но почему это будет верно для более высоких значений?).

Если это действительно сходится к нормали, каковы будут параметры этой нормали в терминах α и β ? (Я ожидаю, что среднее значение будет Φ1(αα+β) так как это трансформация режима, но я не знаю стандартного отклонения).

(Другими словами, это может быть вопрос о том, « сходится ли Φ(Norm(μ,σ)) к бета-распределению для некоторого направления μ и σ »? Я не уверен, что это легче ответить).

Результаты симуляции

Здесь я показываю, почему у меня есть подозрение, что результат нормальный (так как я не могу подтвердить это с помощью математики). Моделирование Y может быть сделано в R с qnormи rnorm. Например, выбирая высокие параметры α=3000 и β=7000 :

hist(qnorm(rbeta(5000, 3000, 7000)))

Это действительно выглядит нормально, а qqnormи на тест Шапиро-Wilk (в которой нормальность является нулевая гипотеза) Предлагайте так же:

qqnorm(qnorm(rbeta(5000, 3000, 7000)))

shapiro.test(qnorm(rbeta(5000, 3000, 7000)))
#> 
#>  Shapiro-Wilk normality test
#> 
#> data:  qnorm(rbeta(5000, 3000, 7000))
#> W = 0.99954, p-value = 0.2838

Чтобы глубже изучить нормальность, я выполняю 2000 симуляций, каждый раз симулируя 5000 значений из Y , затем выполняя тест, чтобы сравнить его с нормой. (Я выбрал значения 5K, потому что это максимум, который shapiro.testможно обработать, и максимизирует мощность для обнаружения отклонений от нормы).

Если бы распределение действительно было нормальным, мы ожидали бы, что p-значения будут одинаковыми (так как null равен true). Они действительно близки к однородным, что говорит о том, что распределение очень близко к нормальному:

hist(replicate(2000, shapiro.test(qnorm(rbeta(5000, 3000, 7000)))$p.value))

Некоторые эксперименты показывают, что чем выше и β , тем ближе распределение к норме (например,αβrbeta(5000, 3, 7) , довольно далеко от нормы, но попробуйте, hist(replicate(2000, shapiro.test(qnorm(rbeta(5000, 30, 70)))$p.value))и, кажется, что-то среднее).

Дэвид Робинсон
источник
2
Здесь ничего интересного не происходит. Поскольку и β становятся большими, предположим, что они остаются в одинаковой пропорции, или, по крайней мере, α / ( α + β ) остается вдали от 0 и 1 . Тогда распределение бета ( α , β ) становится нормальным и концентрируется в сколь угодно узком диапазоне. Ф - 1 , будучи дифференцируемым, становится по существу линейным, откуда вы просто смотрите на линейное преобразование почти нормальной переменной. Этот результат не имеет ничего общего с Φ -αβα/(α+β)01(α,β)Φ1Φ1сам и не добавляет информации о бета-версиях.
whuber
1
@whuber Это имеет смысл для больших и β (у меня было несколько симуляций, которые заставили меня думать, что это было ближе к норме, чем эквивалентное нормальное приближение к бета-версии, но при повторном запуске я думаю, что в то время у меня была ошибка). Любые мысли о α = 2 ; β = 2 ? Dist очень далек от нормального, но это довольно близко. αβα=2β=2
Дэвид Робинсон
1
@whuber Например , попробуйте hist(replicate(1000, shapiro.test(rbeta(5000, 2, 2))$p.value)), потом hist(replicate(1000, shapiro.test(qnorm(rbeta(5000, 2, 2)))$p.value)). Другими словами, когда это нормально, потому что бета однородна, когда α и β высоки, это потому, что бета примерно нормальна, но почему она работает, когда они равны и находятся между ними, где она ни нормальный или равномерный? α=β=1αβ
Дэвид Робинсон
5
Это определенно интереснее! Вы правы в том, что бета-версия не очень близка к нормальной, но что преобразование приблизительно нормальное, даже для небольших параметров беты. Отклонения от нормальности становятся очевидными в хвостах, около или более, но удивительно малы по всему телу распределения. В конечном счете это прослеживается в степенном поведении бета-хвостов. Z=±3
whuber

Ответы:

7

конспект

Вы заново открыли часть конструкции, описанной в Центральной предельной теореме для выборочных медиан , которая иллюстрирует анализ медианы выборки. (Анализ, очевидно, применяется mutatis mutandis к любому квантилю, а не только к медиане). Поэтому неудивительно, что для больших параметров Бета (соответствующих большим выборкам) нормальное распределение возникает при преобразовании, описанном в вопросе. Интересно то, насколько близко к нормальному распределение даже для небольших бета-параметров. Это заслуживает объяснения.

Я сделаю набросок анализа ниже. Чтобы держать этот пост в разумных пределах, нужно много наводить на размышления: я хочу лишь указать на ключевые идеи. Поэтому позвольте мне обобщить результаты здесь:

  1. Когда близко к βαβ , все симметрично. Это приводит к тому, что преобразованное распределение уже выглядит нормально.

  2. Функции вида выглядят достаточно нормальными, в первую очередь, даже для небольших значений α и β (при условии, что оба превышают 1, а их соотношение не слишком близко к 0 или 1 ).Φα1(x)(1Φ(x))β1αβ101

  3. Кажущаяся нормальность преобразованного распределения обусловлена ​​тем, что его плотность состоит из нормальной плотности, умноженной на функцию в (2).

  4. При увеличении и β отклонение от нормальности можно измерить в оставшихся терминах в ряд Тейлора для логарифмической плотности. Член порядка n уменьшается пропорционально ( n - 2 ) / 2 степеням α и β . Это подразумевает, что в конечном итоге для достаточно больших α и β все члены степени n = 3 или более стали относительно малыми, оставляя только квадратичное значение, которое в точности равно логарифмической плотности нормального распределения.αβn(n2)/2αβαβn=3

В совокупности эти поведения хорошо объясняют, почему даже для малых и β неэкстремальные квантили образца iid Normal выглядят приблизительно нормально.αβ


Анализ

Поскольку может быть полезно обобщить, пусть - любая функция распределения, хотя мы имеем в виду F = Φ .FF=Φ

Функция плотности бета- переменной ( α , β ) по определению пропорциональнаg(y)(α,β)

yα1(1y)β1dy.

Если быть интегралом вероятности для x и записать f для производной от F , то сразу x имеет плотность, пропорциональнуюy=F(x)xfFx

G(x;α,β)=F(x)α1(1F(x))β1f(x)dx.

Поскольку это монотонное преобразование сильно унимодального распределения (бета), если является довольно странным, преобразованное распределение также будет унимодальным. Чтобы изучить, насколько близко это может быть к нормальному, давайте рассмотрим логарифм его плотности,F

(1)logG(x;α,β)=(α1)logF(x)+(β1)log(1F(x))+logf(x)+C

где C - нерелевантная константа нормализации.

Разложите компоненты в ряд Тейлора, чтобы упорядочить три вокруг значения x 0 (которое будет близко к моде). Например, мы можем написать расширение журнала FlogG(x;α,β)x0logF как

logF(x)=c0F+c1F(xx0)+c2F(xx0)2+c3Fh3

в течение некоторого с | ч | | х - х 0 | , Используйте аналогичные обозначения для log ( 1 - F ) и log f . h|h||xx0|log(1F)logf

Линейные условия

Таким образом, линейный член в становится(1)

g1(α,β)=(α1)c1F+(β1)c11F+c1f.

Когда является режимом G (x0 это выражение равно нулю. Обратите внимание, что, поскольку коэффициенты являются непрерывными функциями от x 0 , так как α и β изменяются, мода x 0 также будет изменяться непрерывно. Более того, как только α и β становятся достаточно большими,член c f 1 становится относительно несущественным. Если мы хотим изучить предел при α и β ∞, для которого α : β остается в постоянной пропорции γG(;α,β)x0αβx0αβc1fαβ α:βγпоэтому мы можем раз и навсегда выбрать базовую точку для которойx0

γc1F+c11F=0.

Хороший случай, когда , где α = β во всем и F симметричен относительно 0 . В этом случае очевидно , х 0 = Р ( 0 ) = 1 / 2 .γ=1α=βF0x0=F(0)=1/2

Мы достигли метода, при котором (a) в пределе член первого порядка в ряду Тейлора обращается в нуль, а (b) в только что описанном частном случае член первого порядка всегда равен нулю.

Квадратичные условия

These are the sum

g2(α,β)=(α1)c2F+(β1)c21F+c2f.

Comparing to a Normal distribution, whose quadratic term is (1/2)(xx0)2/σ2, we may estimate that 1/(2g2(α,β)) is approximately the variance of G. Let us standardize G by rescaling x by its square root. we don't really need the details; it suffices to understand that this rescaling is going to multiply the coefficient of (xx0)n(1/(2g2(α,β)))n/2.

Remainder term

Here's the punchline: the term of order n in the Taylor expansion is, according to our notation,

gn(α,β)=(α1)cnF+(β1)cn1F+cnf.

After standardization, it becomes

gn(α,β)=gn(α,β)(2g2(α,β))n/2).

Both of the gi are affine combination of α and β. By raising the denominator to the n/2 power, the net behavior is of order (n2)/2 in each of α and β. As these parameters grow large, then, each term in the Taylor expansion after the second decreases to zero asymptotically. In particular, the third-order remainder term becomes arbitrarily small.

The case when F is normal

The vanishing of the remainder term is particularly fast when F is standard Normal, because in this case f(x) is purely quadratic: it contributes nothing to the remainder terms. Consequently, the deviation of G from normality depends solely on the deviation between Fα1(1F)β1 and normality.

This deviation is fairly small even for small α and β. To illustrate, consider the case α=β. G is symmetric, whence the order-3 term vanishes altogether. The remainder is of order 4 in xx0=x.

Here is a plot showing how the standardized fourth order term changes with small values of α>1:

Figure

The value starts out at 0 for α=β=1, because then the distribution obviously is Normal (Φ1 applied to a uniform distribution, which is what Beta(1,1) is, gives a standard Normal distribution). Although it increases rapidly, it tops off at less than 0.008--which is practically indistinguishable from zero. After that the asymptotic reciprocal decay kicks in, making the distribution ever closer to Normal as α increases beyond 2.

whuber
источник
2

Convergence

Suppose that α=β and let α and take any small ε>0. Then var(X)0. By Chebyshev's inequality we have P[|X0.5|>ε]0 and P[|Y|>ε]0. This means that Y converges in probability (not in distribution actually it converges in distribution - to singleton).

Exact distribution

Denote by fX the density of beta distribution. Then your variable Y has density

fY(y)=fX(Φ(y))ϕ(y).
Since Φ does not have a closed form I believe that this is the furthest you can get (analytically). You can try to put it into FullSimplify function in Wolfram Mathematica to see if it finds some better form.

Here is the density in R so you can plot it instead of histogram.

f_y <- function(x, alpha, beta) {
  dbeta(pnorm(x), alpha, beta) * dnorm(x)
}

Modification

However, you are maybe interested in distribution of

Z=Φ1(αX)
. (still assuming α=β) This may be useful because var(αX)1/8 (useful because it is not zero).
Jan Kislinger
источник
1

Here I present a heuristic explanation (which can be made rigorous at least asymptotically). For simplicity, take kN, k2. Let XBeta(k,k). I want to argue that Y=Φ1(X) is approximately normal.

Now let n=2k1. We start by drawing n i.i.d. uniformly distributed random variables U1,,Un. Next, form the order statistics U(1)U(n).

It is well known that U(k)Beta(k,n+1k), thus:

U(k)Beta(k,k)

In other words: The sample median of n i.i.d. uniformly distributed random variables is Beta(k,k) distributed.

Now let's transform by Zi=Φ1(Ui). Then by the probability integral transform, the Zi are i.i.d. normally distributed. Also form the order statistics of the Zi (Z(1)Z(n)). Since Φ1 is strictly increasing, it follows that:

Φ1(U(k))=Z(k)

Therefore, to show that Y is approximately normal, we just have to argue that the sample median of n i.i.d. normal random variables is approximately normal.

For k large, this can be made precise by a central limit theorem for sample medians. For k small, say k=2, I will let everyone's gut feeling do the speaking.

For ab (but not too different) one can argue similarly by using corresponding quantiles.

air
источник