Предположим, вы определили:
где - обратная величина CDF стандартного нормального распределения .
Мой вопрос: существует ли простое распределение, за которым следует , или которое может приближаться к ? Я спрашиваю, потому что у меня есть сильное подозрение, основанное на результатах моделирования (показанных ниже), что сходится к нормальному распределению, когда и высоки, но я не знаю, почему это было бы математически. (Конечно, когда , будет равномерным, а будет стандартной нормалью, но почему это будет верно для более высоких значений?).
Если это действительно сходится к нормали, каковы будут параметры этой нормали в терминах и ? (Я ожидаю, что среднее значение будет так как это трансформация режима, но я не знаю стандартного отклонения).
(Другими словами, это может быть вопрос о том, « сходится ли к бета-распределению для некоторого направления и »? Я не уверен, что это легче ответить).
Результаты симуляции
Здесь я показываю, почему у меня есть подозрение, что результат нормальный (так как я не могу подтвердить это с помощью математики). Моделирование может быть сделано в R с qnorm
и rnorm
. Например, выбирая высокие параметры и :
hist(qnorm(rbeta(5000, 3000, 7000)))
Это действительно выглядит нормально, а qqnorm
и на тест Шапиро-Wilk (в которой нормальность является нулевая гипотеза) Предлагайте так же:
qqnorm(qnorm(rbeta(5000, 3000, 7000)))
shapiro.test(qnorm(rbeta(5000, 3000, 7000)))
#>
#> Shapiro-Wilk normality test
#>
#> data: qnorm(rbeta(5000, 3000, 7000))
#> W = 0.99954, p-value = 0.2838
Чтобы глубже изучить нормальность, я выполняю 2000 симуляций, каждый раз симулируя 5000 значений из , затем выполняя тест, чтобы сравнить его с нормой. (Я выбрал значения 5K, потому что это максимум, который shapiro.test
можно обработать, и максимизирует мощность для обнаружения отклонений от нормы).
Если бы распределение действительно было нормальным, мы ожидали бы, что p-значения будут одинаковыми (так как null равен true). Они действительно близки к однородным, что говорит о том, что распределение очень близко к нормальному:
hist(replicate(2000, shapiro.test(qnorm(rbeta(5000, 3000, 7000)))$p.value))
Некоторые эксперименты показывают, что чем выше и β , тем ближе распределение к норме (например,rbeta(5000, 3, 7)
, довольно далеко от нормы, но попробуйте, hist(replicate(2000, shapiro.test(qnorm(rbeta(5000, 30, 70)))$p.value))
и, кажется, что-то среднее).
источник
hist(replicate(1000, shapiro.test(rbeta(5000, 2, 2))$p.value))
, потомhist(replicate(1000, shapiro.test(qnorm(rbeta(5000, 2, 2)))$p.value))
. Другими словами, когда это нормально, потому что бета однородна, когда α и β высоки, это потому, что бета примерно нормальна, но почему она работает, когда они равны и находятся между ними, где она ни нормальный или равномерный?Ответы:
конспект
Вы заново открыли часть конструкции, описанной в Центральной предельной теореме для выборочных медиан , которая иллюстрирует анализ медианы выборки. (Анализ, очевидно, применяется mutatis mutandis к любому квантилю, а не только к медиане). Поэтому неудивительно, что для больших параметров Бета (соответствующих большим выборкам) нормальное распределение возникает при преобразовании, описанном в вопросе. Интересно то, насколько близко к нормальному распределение даже для небольших бета-параметров. Это заслуживает объяснения.
Я сделаю набросок анализа ниже. Чтобы держать этот пост в разумных пределах, нужно много наводить на размышления: я хочу лишь указать на ключевые идеи. Поэтому позвольте мне обобщить результаты здесь:
Когда близко к βα β , все симметрично. Это приводит к тому, что преобразованное распределение уже выглядит нормально.
Функции вида выглядят достаточно нормальными, в первую очередь, даже для небольших значений α и β (при условии, что оба превышают 1, а их соотношение не слишком близко к 0 или 1 ).Φα−1(x)(1−Φ(x))β−1 α β 1 0 1
Кажущаяся нормальность преобразованного распределения обусловлена тем, что его плотность состоит из нормальной плотности, умноженной на функцию в (2).
При увеличении и β отклонение от нормальности можно измерить в оставшихся терминах в ряд Тейлора для логарифмической плотности. Член порядка n уменьшается пропорционально ( n - 2 ) / 2 степеням α и β . Это подразумевает, что в конечном итоге для достаточно больших α и β все члены степени n = 3 или более стали относительно малыми, оставляя только квадратичное значение, которое в точности равно логарифмической плотности нормального распределения.α β n (n−2)/2 α β α β n=3
В совокупности эти поведения хорошо объясняют, почему даже для малых и β неэкстремальные квантили образца iid Normal выглядят приблизительно нормально.α β
Анализ
Поскольку может быть полезно обобщить, пусть - любая функция распределения, хотя мы имеем в виду F = Φ .F F=Φ
Функция плотности бета- переменной ( α , β ) по определению пропорциональнаg(y) (α,β)
Если быть интегралом вероятности для x и записать f для производной от F , то сразу x имеет плотность, пропорциональнуюy=F(x) x f F x
Поскольку это монотонное преобразование сильно унимодального распределения (бета), если является довольно странным, преобразованное распределение также будет унимодальным. Чтобы изучить, насколько близко это может быть к нормальному, давайте рассмотрим логарифм его плотности,F
гдеC - нерелевантная константа нормализации.
Разложите компоненты в ряд Тейлора, чтобы упорядочить три вокруг значения x 0 (которое будет близко к моде). Например, мы можем написать расширение журнала FlogG(x;α,β) x0 logF как
в течение некоторого с | ч | ≤ | х - х 0 | , Используйте аналогичные обозначения для log ( 1 - F ) и log f .h |h|≤|x−x0| log(1−F) logf
Линейные условия
Таким образом, линейный член в становится(1)
Когда является режимом G (x0 это выражение равно нулю. Обратите внимание, что, поскольку коэффициенты являются непрерывными функциями от x 0 , так как α и β изменяются, мода x 0 также будет изменяться непрерывно. Более того, как только α и β становятся достаточно большими,член c f 1 становится относительно несущественным. Если мы хотим изучить предел при α → ∞ и β → ∞, для которого α : β остается в постоянной пропорции γG(;α,β) x0 α β x0 α β cf1 α→∞ β→∞ α:β γ поэтому мы можем раз и навсегда выбрать базовую точку для которойx0
Хороший случай, когда , где α = β во всем и F симметричен относительно 0 . В этом случае очевидно , х 0 = Р ( 0 ) = 1 / 2 .γ=1 α=β F 0 x0=F(0)=1/2
Мы достигли метода, при котором (a) в пределе член первого порядка в ряду Тейлора обращается в нуль, а (b) в только что описанном частном случае член первого порядка всегда равен нулю.
Квадратичные условия
These are the sum
Comparing to a Normal distribution, whose quadratic term is−(1/2)(x−x0)2/σ2 , we may estimate that −1/(2g2(α,β)) is approximately the variance of G . Let us standardize G by rescaling x by its square root. we don't really need the details; it suffices to understand that this rescaling is going to multiply the coefficient of (x−x0)n (−1/(2g2(α,β)))n/2.
Remainder term
Here's the punchline: the term of ordern in the Taylor expansion is, according to our notation,
After standardization, it becomes
Both of thegi are affine combination of α and β . By raising the denominator to the n/2 power, the net behavior is of order −(n−2)/2 in each of α and β . As these parameters grow large, then, each term in the Taylor expansion after the second decreases to zero asymptotically. In particular, the third-order remainder term becomes arbitrarily small.
The case whenF is normal
The vanishing of the remainder term is particularly fast whenF is standard Normal, because in this case f(x) is purely quadratic: it contributes nothing to the remainder terms. Consequently, the deviation of G from normality depends solely on the deviation between Fα−1(1−F)β−1 and normality.
This deviation is fairly small even for smallα and β . To illustrate, consider the case α=β . G is symmetric, whence the order-3 term vanishes altogether. The remainder is of order 4 in x−x0=x .
Here is a plot showing how the standardized fourth order term changes with small values ofα>1 :
The value starts out at0 for α=β=1 , because then the distribution obviously is Normal (Φ−1 applied to a uniform distribution, which is what Beta(1,1) is, gives a standard Normal distribution). Although it increases rapidly, it tops off at less than 0.008 --which is practically indistinguishable from zero. After that the asymptotic reciprocal decay kicks in, making the distribution ever closer to Normal as α increases beyond 2 .
источник
Convergence
Suppose thatα=β and let α→∞ and take any small ε>0 . Then var(X)→0 . By Chebyshev's inequality we have P[|X−0.5|>ε]→0 and P[|Y|>ε]→0 . This means that Y converges in probability (
not in distributionactually it converges in distribution - to singleton).Exact distribution
Denote byfX the density of beta distribution. Then your variable Y has density
FullSimplify
function in Wolfram Mathematica to see if it finds some better form.Here is the density in R so you can plot it instead of histogram.
Modification
However, you are maybe interested in distribution of
источник
Here I present a heuristic explanation (which can be made rigorous at least asymptotically). For simplicity, takek∈N , k≥2 . Let X∼Beta(k,k) . I want to argue that Y=Φ−1(X) is approximately normal.
Now letn=2k−1 . We start by drawing n i.i.d. uniformly distributed random variables U1,…,Un . Next, form the order statistics U(1)≤…≤U(n) .
It is well known thatU(k)∼Beta(k,n+1−k) , thus:
In other words: The sample median ofn i.i.d. uniformly distributed random variables is Beta(k,k) distributed.
Now let's transform byZi=Φ−1(Ui) . Then by the probability integral transform, the Zi are i.i.d. normally distributed. Also form the order statistics of the Zi (Z(1)≤…≤Z(n) ). Since Φ−1 is strictly increasing, it follows that:
Therefore, to show thatY is approximately normal, we just have to argue that the sample median of n i.i.d. normal random variables is approximately normal.
Fork large, this can be made precise by a central limit theorem for sample medians. For k small, say k=2 , I will let everyone's gut feeling do the speaking.
Fora≠b (but not too different) one can argue similarly by using corresponding quantiles.
источник