Я уверен, что все здесь уже знают, PDF Бета-распределения дается
Я всюду охотился за объяснениями происхождения этой формулы, но я не могу ее найти. Кажется, что каждая статья, которую я нашел в бета-дистрибутиве, дает эту формулу, иллюстрирует некоторые из ее форм, а затем переходит непосредственно к обсуждению ее моментов и далее.
Мне не нравится использовать математические формулы, которые я не могу вывести и объяснить. Для других распределений (например, гамма или бином) есть четкий вывод, который я могу изучить и использовать. Но я не могу найти ничего подобного для бета-дистрибутива.
Итак, мой вопрос: каковы истоки этой формулы? Как это может быть выведено из первых принципов в том контексте, в котором оно было изначально разработано?
[Чтобы уточнить, я не спрашиваю о том, как использовать бета-распределение в байесовской статистике или что это означает на практике интуитивно (я читал пример бейсбола). Я просто хочу знать, как получить PDF. Был предыдущий вопрос, который задавал нечто похожее, но он был помечен (я думаю, что неправильно) как дубликат другого вопроса, который не решал проблему, поэтому я пока не смог найти здесь никакой помощи.]
РЕДАКТИРОВАТЬ 2017-05-06: Спасибо всем за вопросы. Я думаю, что хорошее объяснение того, что я хочу, приходит от одного из ответов, которые я получил, когда я спросил у некоторых из моих преподавателей курса:
«Я думаю, что люди могли бы получить нормальную плотность как предел суммы n вещей, деленных на sqrt (n), и вы можете получить плотность Пуассона из представления о событиях, происходящих с постоянной скоростью. Точно так же, чтобы вывести бета-плотность, вам нужно иметь какое-то представление о том, что делает бета-распределение независимым от плотности и логически предшествующим ей ».
Так что идея "ab initio" в комментариях, вероятно, ближе всего к тому, что я ищу. Я не математик, но мне удобнее всего использовать математику, которую я могу извлечь. Если происхождение слишком развито для меня, пусть будет так, но если нет, я бы хотел понять его.
источник
Ответы:
Как бывший физик, я вижу, как это могло быть получено. Так поступают физики:
когда они сталкиваются с конечным интегралом положительной функции, такой как бета-функция : они инстинктивно определяют плотность: f ( s | x , y ) = s x - 1 ( 1 - s ) y - 1
Они делают это со всеми видами интегралов все время так часто, что это происходит рефлексивно, даже не задумываясь. Они называют эту процедуру "нормализацией" или подобными именами. Обратите внимание, что по определению тривиальная плотность имеет все свойства, которые вы хотите, чтобы она имела, например, всегда была положительной и складывалась в единицу.
Плотность которую я дал выше, имеет бета-распределение.е( т )
ОБНОВИТЬ
@ whuber спрашивает, что особенного в бета-распределении, в то время как вышеуказанная логика может быть применена к бесконечному числу подходящих интегралов (как я отметил в моем ответе выше)?
Особенная часть происходит от биномиального распределения . Я напишу его PDF, используя нотацию, аналогичную моей бета-версии, а не обычные нотации для параметров и переменных:
Здесь - количество успехов и неудач, а s - вероятность успеха. Вы можете видеть, как это очень похоже на числитель в бета-версии. На самом деле, если вы ищите априор для биномиального распределения, это будет бета-версия. Это не удивительно , и потому , что область Бета 0 до 1, и это то, что вы делаете в теореме Байеса: отынтегрируем параметр s , что вероятность успеха в этом случае , как показано ниже: F ( х | X ) = f ′ ( X | s ) f ( s )x,y s s
здесьf(s)- вероятность (плотность) вероятности успеха с учетом предыдущих настроек бета-распределения, аf′(X|s)- плотность этот набор данных (т.е. наблюдаемые успехи и неудачи) с учетом вероятностиs.
источник
источник
First of all, I am not good in mathematically precise descriptions of concepts in my head, but I'll try my best using a simple example:
Imagine you have a bow, many arrows and a target. Let's further say your hit rateλ (for hitting the target) is precisely a function of the distance to the center of the target and of the following form
λ=g(x)=λmax−(q|x−x0|)1q, q>0, 0≤λ≤λmax
where x is the distance to the center of the target (x0 ). For q=1/2 this would be a first order approximation of a Gaussian. That would mean that you most frequently hit the bull-eye. Similarly, it approximates any bell-shaped curve, for example, resulting from diffusion of Brownian particles.
Now, let is furthermore assume that somebody really brave/stupid tries to trick you and displaces the target on every shot. Thereby we makex0 itself to be a random variable. If the distribution of that person's movements can be described by a (p-1)-power of g(x) (that is P(x0)=C⋅g(x)p−1) ), a simple transformation of random variables (remember P(λ)dλ=P(x0)dx0 ) leads to a Beta distributed λ :
where the normalization constantC′ is the beta function. For the standard parametrization of the beta distribution we would set λmax=1 .
In other words the beta distribution can be seen as the distribution of probabilities in the center of a jittered distribution.
I hope that this derivation gets somewhat close to what your instructor meant. Note that the functional forms ofg(x) and P(x0) are very flexible and reach from triangle like distributions and U-shaped distributions (see example below) to sharply peaked distributions.
FYI: I discovered this as a side effect in my doctoral work and reported about it in my thesis in the context of non-stationary neural tuning curves leading to zero-inflated spike count distributions (bimodal with a mode at zero). Applying the concept described above yielded the Beta-Poisson mixture distribution for the neural acticity. That distribution can be fit to data. The fitted parameters allow to estimate both, the distributiong(x) as well as the jitter distribution p(x0) by applying the reverse logics. The Beta-Poisson mixture is a very interesting and flexible alternative to the widely used negative binomial distribution (which is a Gamma-Poisson mixture) to model overdispersion. Below you find an example the "Jitter → Beta" - idea in action:
A : Имитация 1D пробного смещения, полученная из распределения джиттера во вставке (п( J я т т е г ) α г( х )р - 1 ). Усредненное по опыту поле обжига (сплошная черная линия) шире и имеет более низкую пиковую частоту по сравнению с базовой кривой настройки без дрожания (сплошная синяя линия, используемые параметры:λм а х= 10 , р = 0,6 , кв= .5 , B : результирующее распределениеλ в Икс0 across N=100 trials and the analytical pdf of the Beta distribution. C: Simulated spike count distribution from a Poisson process with parameters λi where i denote the indices of the trials and the resulting Beta-Poisson distribution as derived as sketched above. D: Analogous situation in 2D with random shift angles leading to the identical statistics.
источник