Откуда бета дистрибутив?

13

Я уверен, что все здесь уже знают, PDF Бета-распределения Икс~В(a,б) дается

е(Икс)знак равно1В(a,б)Иксa-1(1-Икс)б-1

Я всюду охотился за объяснениями происхождения этой формулы, но я не могу ее найти. Кажется, что каждая статья, которую я нашел в бета-дистрибутиве, дает эту формулу, иллюстрирует некоторые из ее форм, а затем переходит непосредственно к обсуждению ее моментов и далее.

Мне не нравится использовать математические формулы, которые я не могу вывести и объяснить. Для других распределений (например, гамма или бином) есть четкий вывод, который я могу изучить и использовать. Но я не могу найти ничего подобного для бета-дистрибутива.

Итак, мой вопрос: каковы истоки этой формулы? Как это может быть выведено из первых принципов в том контексте, в котором оно было изначально разработано?

[Чтобы уточнить, я не спрашиваю о том, как использовать бета-распределение в байесовской статистике или что это означает на практике интуитивно (я читал пример бейсбола). Я просто хочу знать, как получить PDF. Был предыдущий вопрос, который задавал нечто похожее, но он был помечен (я думаю, что неправильно) как дубликат другого вопроса, который не решал проблему, поэтому я пока не смог найти здесь никакой помощи.]

РЕДАКТИРОВАТЬ 2017-05-06: Спасибо всем за вопросы. Я думаю, что хорошее объяснение того, что я хочу, приходит от одного из ответов, которые я получил, когда я спросил у некоторых из моих преподавателей курса:

«Я думаю, что люди могли бы получить нормальную плотность как предел суммы n вещей, деленных на sqrt (n), и вы можете получить плотность Пуассона из представления о событиях, происходящих с постоянной скоростью. Точно так же, чтобы вывести бета-плотность, вам нужно иметь какое-то представление о том, что делает бета-распределение независимым от плотности и логически предшествующим ей ».

Так что идея "ab initio" в комментариях, вероятно, ближе всего к тому, что я ищу. Я не математик, но мне удобнее всего использовать математику, которую я могу извлечь. Если происхождение слишком развито для меня, пусть будет так, но если нет, я бы хотел понять его.

Уилл Брэдшоу
источник
5
Получено от чего? Если биномиально-сопряженный подход неприемлем, несколько вариантов здесь (например, статистика порядка однородной случайной величины, пропорции гамма-переменных).
GeoMatt22
3
Примечание: вся история бета-версии представлена ​​на невероятной странице Википедии этого дистрибутива, которая содержит все возможные детали!
Сиань
1
Предыдущий вопрос был отмечен как дубликат другой после того , как OP пояснил , что они были после того, как в комментарии. Там задал тот же вопрос, что и @ Geomatt22: « Деривация означает логическую связь от того, что предполагается установить с чем-то. Что вы хотите предположить
Scortchi - Восстановить Монику
2
@Aksakal, но тогда вопрос слишком широк - его можно получить всевозможными способами; если вы правы, я закрою его как слишком широкий, пока вопрос не будет сужен настолько, чтобы можно было что-то иное, чем набор возможных ответов
Glen_b
3
Некоторое краткое обсуждение небольшого исторического контекста здесь (по крайней мере, с точки зрения его связи с неполной бета-функцией). Он имеет связи с гамма-распределением и многими другими распределениями, кроме того, и возникает вполне разумно по-разному; как указывает Сиань, он также имеет историческое происхождение в системе Пирсона . Какой ответ вы ищете здесь? Что дано / что должно быть получено?
Glen_b

Ответы:

6

Как бывший физик, я вижу, как это могло быть получено. Так поступают физики:

когда они сталкиваются с конечным интегралом положительной функции, такой как бета-функция : они инстинктивно определяют плотность: f ( s | x , y ) = s x - 1 ( 1 - s ) y - 1

B(x,y)=01tx1(1t)y1dt
где0<s<1
f(s|x,y)=sx1(1s)y101tx1(1t)y1dt=sx1(1s)y1B(x,y),
0<s<1

Они делают это со всеми видами интегралов все время так часто, что это происходит рефлексивно, даже не задумываясь. Они называют эту процедуру "нормализацией" или подобными именами. Обратите внимание, что по определению тривиальная плотность имеет все свойства, которые вы хотите, чтобы она имела, например, всегда была положительной и складывалась в единицу.

Плотность которую я дал выше, имеет бета-распределение.е(T)

ОБНОВИТЬ

@ whuber спрашивает, что особенного в бета-распределении, в то время как вышеуказанная логика может быть применена к бесконечному числу подходящих интегралов (как я отметил в моем ответе выше)?

Особенная часть происходит от биномиального распределения . Я напишу его PDF, используя нотацию, аналогичную моей бета-версии, а не обычные нотации для параметров и переменных:

f(x,y|s)=(y+xx)sx(1s)y

Здесь - количество успехов и неудач, а s - вероятность успеха. Вы можете видеть, как это очень похоже на числитель в бета-версии. На самом деле, если вы ищите априор для биномиального распределения, это будет бета-версия. Это не удивительно , и потому , что область Бета 0 до 1, и это то, что вы делаете в теореме Байеса: отынтегрируем параметр s , что вероятность успеха в этом случае , как показано ниже: F ( х | X ) = f ( X | s ) f ( s )x,yss здесьf(s)- вероятность (плотность) вероятности успеха с учетом предыдущих настроек бета-распределения, аf(X|s)- плотность этот набор данных (т.е. наблюдаемые успехи и неудачи) с учетом вероятностиs.

f^(x|X)=f(X|s)f(s)01f(X|s)f(s)ds,
f(s)f(X|s)s
Аксакал
источник
1
@ Сиань ОП, похоже, не интересуется историей.
Аксакал
1
«Объяснение происхождения этой формулы ... в каком бы контексте она не была разработана» для меня звучит как история :-).
whuber
3
Я считаю, что можно интересоваться как историей, так и первыми принципами одновременно. :-) Хотя ваш ответ математически правильный, к сожалению, он слишком общий: можно создать плотность любой неотрицательной функции с конечным интегралом. Что же такого особенного в этом семействе распределений? Таким образом, ваш подход не удовлетворяет ни одной точке зрения.
whuber
2
@WillBradshaw, да. Обычно мы рассматриваем биномиальное распределение как функцию количества неудач (или успехов), учитывая вероятность и количество испытаний в качестве параметров. Таким образом, это дискретное распределение . Однако, если вы посмотрите на это как на функцию вероятностей, учитывая количество успехов и неудач в качестве параметров, то это станет бета-распределением после его масштабирования, непрерывным распределением, кстати.
Аксакал
2
Статья Википедии на бета - распределения следов его Карлу Пирсону, точно так , как предложил @ Сиань. Стиглер в своей «Истории статистики: измерение неопределенности до 1900 года» кратко излагает вывод Пирсона с использованием современных обозначений.
uber
15

введите описание изображения здесь

-B(a,b)упоминаются Уоллис (1616-1703), Ньютон (1642-1726) и Стерлинг (1692-1770), имеющие дело с частными случаями интеграла еще раньше. Карл Пирсон (1895) первый каталог этого семейства распределений как Пирсон I типа .


F(p,q)

ρзнак равноσ^12/σ^22пσ^12~χп2Qσ^12~χQ2
пρQ+пρ~В(п/2,Q/2)
ω~В(a,б)
ω/a(1-ω)/б~F(2a,2b)
B(a,b)F(p,q)
fp,q(x){px/q}p/21(1+px/q)(p+q)/2
and considering the change of variable
y={px/q}{1+px/q}y(0,1)
which inverts into
x=qyp(1y)
the Jacobian is
dxdy=qp(1y)+qyp(1y)2=pq(1y)2
leads to the density of the transform
g(y)yp/21(1y)q/2+1(1y)2=yp/21(1y)q/2+1
[where all normalisation constants are obtained by imposing for the density to integrate to one.
Xi'an
источник
2
+1. It might be worth noting that K. Pearson did not merely "catalog" the Beta distributions: he derived them via solutions of a family of differential equations inspired by a relationship he observed between difference equations for the Binomial and differential equations for the Normal distribution. Generalizing the Binomial difference equation to the hypergeometric distribution produced a generalization of the differential equation, whose solutions included the "Type I" and "Type II" Beta distributions. This is precisely the kind of ab initio derivation the OP seems to be seeking.
whuber
2
I think I can learn a lot by studying this answer. It's too advanced for me at the moment, but when I have time I will come back and research the topics you mention, then try again to understand it. Many thanks. :)
Will Bradshaw
1

First of all, I am not good in mathematically precise descriptions of concepts in my head, but I'll try my best using a simple example:

Imagine you have a bow, many arrows and a target. Let's further say your hit rate λ (for hitting the target) is precisely a function of the distance to the center of the target and of the following form

λ=g(x)=λmax(q|xx0|)1q, q>0, 0λλmax
where x is the distance to the center of the target (x0). For q=1/2 this would be a first order approximation of a Gaussian. That would mean that you most frequently hit the bull-eye. Similarly, it approximates any bell-shaped curve, for example, resulting from diffusion of Brownian particles.

Now, let is furthermore assume that somebody really brave/stupid tries to trick you and displaces the target on every shot. Thereby we make x0 itself to be a random variable. If the distribution of that person's movements can be described by a (p-1)-power of g(x) (that is P(x0)=Cg(x)p1)), a simple transformation of random variables (remember P(λ)dλ=P(x0)dx0) leads to a Beta distributed λ:

P(λ)=P(g1(λ))|dg1(λ)dλ|=Cλp1(λmaxλ)q1

where the normalization constant C is the beta function. For the standard parametrization of the beta distribution we would set λmax=1.

In other words the beta distribution can be seen as the distribution of probabilities in the center of a jittered distribution.

I hope that this derivation gets somewhat close to what your instructor meant. Note that the functional forms of g(x) and P(x0) are very flexible and reach from triangle like distributions and U-shaped distributions (see example below) to sharply peaked distributions.

FYI: I discovered this as a side effect in my doctoral work and reported about it in my thesis in the context of non-stationary neural tuning curves leading to zero-inflated spike count distributions (bimodal with a mode at zero). Applying the concept described above yielded the Beta-Poisson mixture distribution for the neural acticity. That distribution can be fit to data. The fitted parameters allow to estimate both, the distribution g(x) as well as the jitter distribution p(x0) by applying the reverse logics. The Beta-Poisson mixture is a very interesting and flexible alternative to the widely used negative binomial distribution (which is a Gamma-Poisson mixture) to model overdispersion. Below you find an example the "Jitter Beta" - idea in action:

A jitter model leading to the Beta-Poisson spiking model.

A : Имитация 1D пробного смещения, полученная из распределения джиттера во вставке (п(JяTTер)αграмм(Икс)п-1). Усредненное по опыту поле обжига (сплошная черная линия) шире и имеет более низкую пиковую частоту по сравнению с базовой кривой настройки без дрожания (сплошная синяя линия, используемые параметры:λмaИксзнак равно10,пзнак равно+0,6,Qзнак равно0,5, B : результирующее распределениеλ в Икс0 across N=100 trials and the analytical pdf of the Beta distribution. C: Simulated spike count distribution from a Poisson process with parameters λi where i denote the indices of the trials and the resulting Beta-Poisson distribution as derived as sketched above. D: Analogous situation in 2D with random shift angles leading to the identical statistics.

Jojo
источник