Почему в функции плотности распределения бета -1?

Бета-распределение появляется при двух параметризации (или здесь )

\begin{matrix} (1) & f (x) \propto x^{α} (1 - x)^{β} \end{matrix}

$f(x) \propto x^{\alpha} (1-x)^{\beta} \tag{1}$

или тот, который, кажется, используется чаще

\begin{matrix} (2) & f (x) \propto x^{α - 1} (1 - x)^{β - 1} \end{matrix}

$f(x) \propto x^{\alpha-1} (1-x)^{\beta-1} \tag{2}$

Но почему именно « » во второй формуле? $-1$

Кажется, что первая формулировка более точно соответствует биномиальному распределению

\begin{matrix} (3) & g (k) \propto p^{k} (1 - p)^{n - k} \end{matrix}

$g(k) \propto p^k (1-p)^{n-k} \tag{3}$

но «видно» из точки зрения «s $p$ . Это особенно очевидно в бета-биномиальной модели, где можно понимать как предыдущее число успехов, а - это предыдущее количество неудач. $\alpha$ $\beta$

Так почему именно вторая форма завоевала популярность и в чем ее причина ? Каковы последствия использования любой из параметризации (например, для связи с биномиальным распределением)?

Было бы замечательно, если бы кто-то мог дополнительно указать источник такого выбора и исходные аргументы для него, но это не является необходимостью для меня.

distributions references beta-distribution history beta-binomial Тим
источник

В этом ответе указывается на глубокую причину :

f

$f$ равно

x^{α} (1 - x)^{β}

$x^\alpha(1-x)^\beta$ относительно меры

d μ = d x / ((x (1 - x))

$d\mu=dx/((x(1-x))$ . Это сводит ваш вопрос к «почему именно эта мера «Признавая, что эта мера

d μ = d (\log (\frac{x}{1 - x}))

$d\mu=d\left(\log\left(\frac{x}{1-x}\right)\right)$ предлагает «правильный» способ понять эти распределения - применить логистическое преобразование:термины«

- 1

$-1$ » исчезнут.

whuber

Я думаю, что настоящая причина, по которой это произошло, - историческая, потому что так выглядит в бета-функции, для которой назван дистрибутив. Что касается того , почему это имеет

во власти, я ожидаю, что это в конечном счете будет связано с причиной, которую упоминает Уабер (хотя исторически это не имеет ничего общего с мерой или даже вероятностью).

- 1

$-1$

Glen_b

@Glen_b Это больше, чем историческое: есть глубокие причины. Они обусловлены тесной связью между бета-функциями и гамма-функциями, сводящими вопрос к тому, почему показатель в

равен

а не

. Это потому, что

является суммой Гаусса . Эквивалентно, «правильно» рассматривать

как интеграл мультипликативного гомоморфизма

умноженного на аддитивный характер

Γ (s) = \int_{0}^{\infty} t^{s - 1} e^{- t} d t

$\Gamma(s)=\int_0^\infty t^{s-1}e^{-t}dt$

s - 1

$s-1$

s

$s$

Γ

$\Gamma$

Γ

$\Gamma$

t \to t^{s}

$t\to t^s$

против меры Хаара

на мультипликативной группе

t \to e^{- t}

$t\to e^{-t}$

d t / t

$dt/t$

R^{\times}

$\mathbb{R}^{\times}$

whuber

@ wh Это хорошая причина, по которой гамма-функция должна быть выбрана именно таким образом (и я уже предположил, что такая причина существовала выше, и я принимаю некоторую форму рассуждения, сродни этому - но обязательно с другим формализмом - пришла к выбору Эйлера); соответственно веские причины возникают с плотностью; но это не доказывает, что это было причиной выбора (почему форма была выбрана такой, какой она была), только то, что это хорошая причина для этого. Форма гамма-функции ... ctd

Glen_b

ctd ... само по себе может быть достаточной причиной, чтобы выбрать эту форму для плотности и для других, чтобы последовать их примеру. [Часто выбор делается по более простым причинам, которые мы можем определить позже, и тогда часто требуются веские причины, чтобы сделать что-то еще. Знаем ли мы , что именно поэтому он был изначально выбран] - вы четко объяснить , что есть причина , почему мы должны выбрать плотность быть так, а не почему это является таким образом. Это включает в себя последовательность людей, делающих выбор (использовать их таким образом и следовать их примеру), и их причины в то время, которое они выбрали.

Glen_b

Ответы:

Это история о степенях свободы и статистических параметрах, а также о том, что хорошо, что они имеют прямую простую связь.

Исторически, термины « » появились в исследованиях Эйлера функции Бета. Он использовал эту параметризацию к 1763 году, как и Адриен-Мари Лежандр: их использование установило последующее математическое соглашение. Эта работа предшествует всем известным статистическим приложениям. $-1$

Современная математическая теория дает множество указаний, благодаря множеству приложений в анализе, теории чисел и геометрии, что термины « » на самом деле имеют некоторое значение. Я набросал некоторые из этих причин в комментариях к вопросу. $-1$

Более интересным является то, какой должна быть «правильная» статистическая параметризация. Это не так ясно, и это не должно совпадать с математическим соглашением. Существует огромная сеть широко используемых, хорошо известных, взаимосвязанных семейств распределений вероятностей. Таким образом, соглашения, используемые для именования (то есть параметризации) одного семейства, обычно подразумевают связанные соглашения для именования связанных семейств. Измените одну параметризацию, и вы захотите изменить их все. Поэтому мы могли бы посмотреть на эти отношения для подсказок.

Мало кто не согласится с тем, что наиболее важные семьи распределения происходят из нормальной семьи. Напомним , что случайная величина называется «нормально распределены» , когда имеет плотность вероятности , пропорциональный . Когда и , говорят , что имеет стандартное нормальное распределение. $X$ $(X-\mu)/\sigma$ $f(x)$ $\exp(-x^2/2)$ $\sigma=1$ $\mu=0$ $X$

Многие наборы данных изучаются с использованием относительно простой статистики, включающей рациональные комбинации данных и малые мощности (обычно квадраты). Когда эти данные моделируются как случайные выборки из нормального распределения - так что каждый рассматривается как реализация нормальной переменной , все имеют общее распределение и независимы - распределения этих статистических данных. определяются этим нормальным распределением. На практике чаще всего возникают $x_1, x_2, \ldots, x_n$ $x_i$ $X_i$ $X_i$

,распределениеСтьюдента с «степенями свободы». Это распределение статистики $t_\nu$ $t$ $\nu = n-1$ гдемоделирует среднее значение данных и
$t = \frac{\bar{X}}{se (X)}$ $t = \frac{\bar X}{\operatorname{se}(X)}$ $\bar X = (X_1 + X_2 + \cdots + X_n)/n$ - стандартная ошибка среднего. Деление напоказывает, чтодолжно бытьили больше, откудаявляется целым числомили больше. Формула, хотя и немного сложная, является корнем квадратным из рациональной функции данных второй степени: она относительно проста. $\operatorname{se}(X) = (1/\sqrt{n})\sqrt{(X_1^2+X_2^2 + \cdots + X_n^2)/(n-1) - \bar X^2}$ $n-1$ $n$ $2$ $\nu$ $1$
, распределения (хи-квадрат)с , "степеней свободы" (ДФ). Это распределение суммы квадратов независимых стандартных нормальных переменных. Следовательно, распределение средних квадратов этих переменных будетраспределением масштабированным на : я буду называть это «нормализованным»распределением . $\chi^2_\nu$ $\chi^2$ $\nu$ $\nu$ $\chi^2$ $1/\nu$ $\chi^2$
,в распределение коэффициента с параметрами представляет собой отношение двух независимых нормированная распределений с и степенями свободы. $F_{\nu_1, \nu_2}$ $F$ $(\nu_1, \nu_2)$ $\chi^2$ $\nu_1$ $\nu_2$

Математические расчеты показывают, что все три из этих распределений имеют плотности. Важно отметить, что плотность распределения пропорциональна подынтегральному выражению в интегральном определении Эйлера функции Гамма ( ). Давайте сравним их: $\chi^2_\nu$ $\Gamma$

f_{χ_{ν}^{2}} (2 x) \propto x^{ν / 2 - 1} e^{- x}; f_{Γ (ν)} (x) \propto x^{ν - 1} e^{- x} .

$f_{\chi^2_\nu}(2x) \propto x^{\nu/2 - 1}e^{-x};\quad f_{\Gamma(\nu)}(x) \propto x^{\nu-1}e^{-x}.$

Это показывает, что дважды переменная имеет гамма-распределение с параметром . Половина коэффициента достаточно мешающая, но вычитание сделало бы отношения намного хуже. Это уже поставляет убедительный ответ на вопрос: если мы хотим , чтобы параметр с распределения , чтобы подсчитать количество квадратов нормальных переменные , которые производят его ( с точностью до множителя из ), то показателя в его функции плотности сусла быть на половину меньше. $\chi^2_\nu$ $\nu/2$ $1$ $\chi^2$ $1/2$

Почему фактор меньше неприятностей , чем разница в ? Причина в том, что этот фактор останется неизменным, когда мы все сложим. Если сумма квадратов независимых стандартных нормалей пропорциональна гамма-распределению с параметром (умноженным на некоторый коэффициент), то сумма квадратов независимых стандартных нормалей пропорциональна гамма-распределению с параметром (умноженным на тот же коэффициент) откуда сумма квадратов всех переменных пропорциональна гамма-распределению с параметром (все еще раз тот же коэффициент). $1/2$ $1$ $n$ $n$ $m$ $m$ $n+m$ $m+n$ Тот факт, что добавление параметров так близко имитирует добавление счетчиков, очень полезно.

Однако, если бы мы убрали эту надоедливую " " из математических формул, эти хорошие отношения стали бы более сложными. Например, если мы изменили параметризацию гамма-распределений так, чтобы они ссылались на фактическую степень в формуле, чтобы распределение было связано с распределением «Gamma » (так как степень в его PDF равен ), тогда сумму трех распределений нужно было бы назвать «Гамма $-1$ $x$ $\chi^2_1$ $(0)$ $x$ $1-1=0$ $\chi^2_1$ $(2)$ "распределение. Короче говоря, тесная аддитивная связь между степенями свободы и параметром в гамма-распределениях будет потеряна, если удалить формулу из формулы и поглотить ее в параметре. $-1$

Точно так же функция вероятности распределения отношения тесно связана с бета-распределениями. Действительно, когда имеет распределение коэффициента, распределение имеет бета распределения. Его функция плотности пропорциональна $F$ $Y$ $F$ $Z=\nu_1 Y/(\nu_1 Y + \nu_2)$ $(\nu_1/2, \nu_2/2)$

f_{Z} (z) \propto z^{ν_{1} / 2 - 1} (1 - z)^{ν_{2} / 2 - 1} .

$f_Z(z) \propto z^{\nu_1/2 - 1}(1-z)^{\nu_2/2-1}.$

Кроме того, принимая эти идеи по кругу, квадрат распределения Стьюдента с df имеет отношение с параметрами . Еще раз очевидно, что поддержание традиционной параметризации поддерживает четкую связь с основными показателями, которые способствуют степеням свободы. $t$ $\nu$ $F$ $(1,\nu)$

Таким образом, со статистической точки зрения было бы наиболее естественным и простым использовать вариант традиционных математических параметризаций распределений и бета: мы бы предпочли называть распределение распределением ». и бета распределение следует называть «бета распределением». Фактически, мы уже сделали это: именно поэтому мы продолжаем использовать имена "хи-квадрат" и " $\Gamma$ $\Gamma(\alpha)$ $\Gamma(2\alpha)$ $(\alpha, \beta)$ $(2\alpha, 2\beta)$ $F$ Соотношение "распределение вместо" Гамма "и" Бета ". Независимо от того, мы ни в коем случае не хотим удалять термины " ", которые появляются в математических формулах для их плотности. $-1$ Если бы мы сделали это, мы потеряли бы прямую связь между параметрами в плотностях и количеством данных, с которыми они связаны: мы всегда были бы на единицу.

Whuber
источник

Спасибо за ваш ответ (я уже + 1d). У меня есть только небольшой дополнительный вопрос: может быть, я что-то упускаю, но разве мы не жертвуем прямой связью с биномиальным, используя параметризацию -1?

Тим

Я не уверен, какое "прямое отношение к биному" ты имеешь в виду, Тим. Например, когда распределение Beta

используется в качестве предшествующего конъюгата для биномиального образца, очевидно, что параметры являются именно теми, которые нужно использовать: вы добавляете

(не

) к числу успехов, а

(не

) на количество отказов.

(a, b)

$(a,b)$

a

$a$

a - 1

$a-1$

b

$b$

b - 1

$b-1$

whuber

Запись вводит вас в заблуждение. Существует «скрытый » в формуле , так как в , и должны быть больше , чем (второе звено вы указали в своем вопросе говорит , что это явно). «s и » s в этих двух формулах не являются теми же самыми параметрами; они имеют разные диапазоны: в , и в , $-1$ $(1)$ $(1)$ $\alpha$ $\beta$ $-1$ $\alpha$ $\beta$ $(1)$ $\alpha,\beta>-1$ $(2)$ . Эти диапазоны для и необходимы, чтобы гарантировать, что интеграл плотности не расходится. Чтобы увидеть это, рассмотрим в случай (или меньше) и , затем попытайтесьинтегрироватьплотность (ядро) между и . Эквивалентно, попробуйте то же самое в для (или меньше) и . $\alpha,\beta>0$ $\alpha$ $\beta$ $(1)$ $\alpha=-1$ $\beta=0$ $0$ $1$ $(2)$ $\alpha=0$ $\beta=1$

Zen
источник

Проблема диапазона определения

кажется, исчезает, когда интеграл интерпретируется, как Покхаммер в 1890 году, как особый контурный интеграл. В этом случае его можно приравнять к выражению, которое определяет аналитическую функцию для всех значений

включая все комплексные. Это проливает свет на озабоченность в вопросе: почему именно эта конкретная параметризация была принята, поскольку существует много других возможных параметризаций, которые, кажется, могут одинаково хорошо служить?

α

$\alpha$

β

$\beta$

α

$\alpha$

β

$\beta$

whuber

Мне сомнение ОП кажется гораздо более основательным. Он немного запутался насчет «-1» в (2), но не в (1) (конечно, это не так). Кажется, ваш комментарий отвечает на другой вопрос (кстати, гораздо интереснее).

Дзен

Спасибо за ваши усилия и ответ, но он все еще не отвечает моей главной заботе: почему был выбран -1? Следуя вашей логике, можно выбрать любое значение, меняя произвольную нижнюю границу на другое. Я не могу понять, почему -1 или 0 могут быть лучше или хуже нижней границы для значений параметров, кроме того факта, что 0 "эстетически" более хорошая граница. С другой стороны, Beta (0, 0) будет хорошим «по умолчанию» для равномерного распределения при использовании первой формы. Да, это очень субъективные комментарии, но это мой главный вопрос: есть ли какие-то непроизвольные причины для такого выбора?

Тим

Дзен, я согласен, что возник вопрос о том, как интерпретировать оригинальный пост. Спасибо, Тим, за ваши разъяснения.

whuber

Привет, Тим! Я не вижу какой-либо определенной причины, хотя она делает более прямой связь с тем, что для

, если

независимы, то

есть

α, β > 0

$\alpha,\beta>0$

U \sim G a m m a (α, 1)

$U\sim\mathrm{Gamma}(\alpha,1)$

V \sim G a m m a (β, 1)

$V\sim\mathrm{Gamma}(\beta,1)$

X = U / (U + V)

$X=U/(U+V)$

, а плотность

пропорциональна

. Но тогда вы можете подвергнуть сомнению параметризацию гамма-распределения ...

B e t a (α, β)

$\mathrm{Beta}(\alpha,\beta)$

X

$X$

x^{α - 1} (1 - x)^{β - 1}

$x^{\alpha-1}(1-x)^{\beta-1}$

Дзен,

Для меня наличие -1 в показателе степени связано с развитием гамма-функции. Мотивация гамма-функции - найти плавную кривую, соединяющую точки факториала $x!$ , Поскольку невозможно вычислить $x!$ непосредственно, если $x$ не является целым числом, идея состояла в том, чтобы найти функцию для любого $x \geq 0$ которая удовлетворяет рекуррентному соотношению, определенному факториалом, а именно

$f(1)=1\\ f(x+1)=x \cdot f(x).$

Решение было с помощью сходимости интеграла. Для функции, определенной как

$f(x+1) = \displaystyle\int_{0}^{\infty} t^{x}e^{-x} dt,$

Интеграция по частям обеспечивает следующее:

$\begin{align} f(x+1) & = \displaystyle\int_{0}^{\infty} t^{x}e^{-x} dt \\ & = \Big[-t^{x}e^{-x} \Big]^{\infty}_{0} + \displaystyle\int_{0}^{\infty} x\cdot t^{x-1}e^{-x} dt \\ &= \lim_{x \to \infty} (-t^{x}e^{-x}) - 0 \cdot e^{-0} + x\cdot \displaystyle\int_{0}^{\infty} t^{x-1}e^{-x} dt \\ &= 0 - 0 + x\cdot \displaystyle\int_{0}^{\infty} t^{x-1}e^{-x} dt \\ &= x \cdot f(x) . \end{align}$

Таким образом, вышеприведенная функция удовлетворяет этому свойству, а -1 в показателе степени получается из процедуры интегрирования по частям. Смотрите статью в Википедии https://en.wikipedia.org/wiki/Gamma_function .

Изменить: я прошу прощения, если мой пост не полностью ясно; Я просто пытаюсь указать, что, по моей идее, существование -1 в бета-распределении происходит от обобщения факториала посредством гамма-функции. Есть два условия: $f(1)=1$ и $f(x+1)=x \cdot f(x)$ . Мы имеем $\Gamma(x) = (x-1)!$ следовательно, оно удовлетворяет $\Gamma(x+1) = x \cdot \Gamma(x) = x \cdot (x-1)! = x!$ , Кроме того, имеем $\Gamma(1) = (1-1)! = 0! = 1$ . Что касается бета-распределения с параметрами $\alpha, \beta$ , то обобщение биномиального коэффициента имеет вид $\dfrac{\Gamma(\alpha + \beta)}{\Gamma(\alpha) \cdot \Gamma(\beta)} = \dfrac{(\alpha + \beta - 1)!}{(\alpha-1)! \cdot (\beta-1)!}$ , Там у нас есть -1 в знаменателе, для обоих параметров.

aatr
источник

Это не имеет смысла, потому что рекуррентная функция, которой удовлетворяет факториал, - это не то, что вы заявляете:

(x + 1)! \neq x \cdot x! .

$(x+1)! \ne x \cdot x!.$

whuber

Функция

удовлетворяющая рекуррентному соотношению, является гамма:

. Вот как это определяется.

f (x)

$f(x)$

Γ (x + 1) = x \cdot Γ (x)

$\Gamma(x+1) = x \cdot \Gamma(x)$

aatr

Да, но ваша заявленная мотивация основана на факторной функции, а не на гамме.

whuber

Важно вспомнить связь между гаммой и факториалом:

Γ (x) = (x - 1)!

$\Gamma(x) = (x-1)!$

aatr

К сожалению, это круговая логика: вы начинаете с факториала, характеризуете гамму как интерполирующую ее, а затем делаете вывод, что есть -1. Фактически, ваш пост показывает -1, как будто он ошибочно выпал, путая Гамму с факториалом. Мало кто найдет это либо освещающим, либо убедительным.

whuber