Что именно представляет собой альфа в распределении Дирихле?

Я довольно новичок в байесовской статистике, и я наткнулся на исправленную меру корреляции SparCC , которая использует процесс Дирихле в бэкэнде своего алгоритма. Я пытался пройтись по алгоритму шаг за шагом, чтобы действительно понять, что происходит, но я не уверен, что именно делает alphaпараметр вектора в распределении Дирихле и как он нормализует alphaпараметр вектора?

Реализация заключается в Pythonиспользовании NumPy: https://docs.scipy.org/doc/numpy/reference/generated/numpy.random.dirichlet.html

Документы говорят:

альфа: массив Параметр распределения (измерение k для выборки измерения k).

Мои вопросы:

Как alphasвлияет на распределение ?;
Как alphasнормализуется ?; а также
Что происходит, когда alphasне являются целыми числами?

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# Reproducibility
np.random.seed(0)

# Integer values for alphas
alphas = np.arange(10)
# array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

# Dirichlet Distribution
dd = np.random.dirichlet(alphas) 
# array([ 0.        ,  0.0175113 ,  0.00224837,  0.1041491 ,  0.1264133 ,
#         0.06936311,  0.13086698,  0.15698674,  0.13608845,  0.25637266])

# Plot
ax = pd.Series(dd).plot()
ax.set_xlabel("alpha")
ax.set_ylabel("Dirichlet Draw")

distributions bayesian dirichlet-distribution O.rka
источник

У вас есть проблемы со статьей в Википедии в этом дистрибутиве ?

Сиань

Извините, я не думаю, что сформулировал это правильно. Я понимаю, что такое распределение вероятностей / pdf / pmf, но я не понимал, как происходит нормализация. Из википедии кажется, что нормализация происходит через гамма-функции после . Я слышал, что это называется распределением по дистрибутивам, и это трудно увидеть из результатов википедии.

\prod {x_{i}}^{α - 1}

${\prod}{x_i}^{\alpha - 1}$

О.Рка

Если вы нормализуете альфа, вы получите среднее значение распределения. Если вы нормализуете распределение, вы гарантируете, что его интеграл по его поддержке равен 1, и, таким образом, это допустимое распределение вероятностей.

Eskapp

Распределение Дирихле - это распределение по симплексу, следовательно, распределение по конечным опорным распределениям. Если вы стремитесь к распределению по непрерывным распределениям, вам следует взглянуть на процесс Дирихле.

Сиань

Ответы:

Распределение Дирихле - это многомерное распределение вероятностей, которое описывает переменные , такие, что каждый и , параметризованный вектор положительно-значимых параметров . Параметры не должны быть целыми числами, они должны быть только положительными действительными числами. Они никак не «нормированы», они являются параметрами этого распределения. $k\ge2$ $X_1,\dots,X_k$ $x_i \in (0,1)$ $\sum_{i=1}^N x_i = 1$ $\boldsymbol{\alpha} = (\alpha_1,\dots,\alpha_k)$

Распределение Дирихле - это обобщение бета-распределения на несколько измерений, поэтому вы можете начать с изучения бета-распределения. Бета - это одномерное распределение случайной величины параметризованной параметрами и . Хорошая интуиция об этом появляется, если вы вспомните, что это сопряженный априор для биномиального распределения, и если мы примем бета-априор, параметризованный и для параметра вероятности биномиального распределения , то апостериорное распределение также является бета-распределение, параметризованное $X \in (0,1)$ $\alpha$ $\beta$ $\alpha$ $\beta$ $p$ $p$ $\alpha' = \alpha + \text{number of successes}$ и . Таким образом, вы можете думать о и как о псевдосчетах (они не должны быть целыми числами) об успехах и неудачах (см. Также эту ветку ). $\beta' = \beta + \text{number of failures}$ $\alpha$ $\beta$

В случае распределения Дирихле оно является сопряженным предшествующим для многочленного распределения . Если в случае биномиального распределения мы можем представить его с точки зрения рисования белых и черных шариков с заменой из урны, то в случае полиномиального распределения мы рисуем с заменой шариков, появляющихся в цветах, где каждый из цветов шаров можно нарисовать с вероятностями . Распределение Дирихле является сопряженным вероятностей и параметров как псевдосчет шариков каждого цвета, принятый априори $N$ $k$ $p_1,\dots,p_k$ $p_1,\dots,p_k$ $\alpha_1,\dots,\alpha_k$ (но вы должны также прочитать о подводных камнях таких рассуждений ). В полиномиальной модели Дирихле обновляются путем суммирования их с наблюдаемыми значениями в каждой категории: аналогично тому, как в случае бета-биномиальной модели. $\alpha_1,\dots,\alpha_k$ $\alpha_1+n_1,\dots,\alpha_k+n_k$

Чем выше значение , тем больше «вес» и большее количество общей «массы» присвоено ему (напомним, что в целом это должно быть ). Если все равны, распределение является симметричным. Если , его можно рассматривать как антивес, который отталкивает к экстремальным значениям, а когда он высокий, он притягивает к некоторому центральному значению (центральному в том смысле, что все точки сосредоточены вокруг него, а не в ощущение, что оно симметрично центральное). Если , то точки распределены равномерно. $\alpha_i$ $X_i$ $x_1+\dots+x_k=1$ $\alpha_i$ $\alpha_i < 1$ $x_i$ $x_i$ $\alpha_1 = \dots = \alpha_k = 1$

Это можно увидеть на графиках ниже, где вы можете видеть тривариантные распределения Дирихле (к сожалению, мы можем создавать разумные графики только до трех измерений), параметризованные с помощью (a) , (b) , (c) , (d) . $\alpha_1 = \alpha_2 = \alpha_3 = 1$ $\alpha_1 = \alpha_2 = \alpha_3 = 10$ $\alpha_1 = 1, \alpha_2 = 10, \alpha_3 = 5$ $\alpha_1 = \alpha_2 = \alpha_3 = 0.2$

Распределение Дирихле иногда называют «распределением по распределениям» , поскольку его можно рассматривать как распределение самих вероятностей. Обратите внимание, что, поскольку каждый и , то согласуются с первой и второй аксиомами вероятности . Таким образом, вы можете использовать распределение Дирихле в качестве распределения вероятностей для дискретных событий, описываемых такими распределениями, как категориальные или многочленные . Это не $x_i \in (0,1)$ $\sum_{i=1}^k x_i = 1$ $x_i$ верно, что это распределение по любым распределениям, например, оно не связано с вероятностями непрерывных случайных величин или даже некоторых дискретных (например, распределенная случайная величина Пуассона описывает вероятности наблюдения значений, которые являются любыми натуральными числами, поэтому для использования Распределение Дирихле по их вероятностям, вам понадобится бесконечное количество случайных величин ). $k$

Тим
источник

Невероятное объяснение

О.Рка

Отказ от ответственности: я никогда не работал с этим дистрибутивом раньше. Этот ответ основан на этой статье в Википедии и моей интерпретации.

Распределение Дирихле является многомерным распределением вероятностей, схожим по свойствам с распределением Бета.

PDF определяется следующим образом:

{x_{1}, \dots, x_{K}} \sim \frac{1}{B (α)} \prod_{i = 1}^{K} x_{i}^{α_{i} - 1}

$\{x_1, \dots, x_K\} \sim\frac{1}{B(\boldsymbol{\alpha})}\prod_{i=1}^Kx_i^{\alpha_i - 1}$

с , и . $K \geq 2$ $x_i \in (0,1)$ $\sum_{i=1}^Kx_i = 1$

Если мы посмотрим на тесно связанный бета-дистрибутив:

{x_{1}, x_{2} (= 1 - x_{1})} \sim \frac{1}{B (α, β)} x_{1}^{α - 1} x_{2}^{β - 1}

$\{x_1, x_2 (=1-x_1)\} \sim \frac{1}{B(\alpha,\beta)}x_1^{\alpha-1}x_2^{\beta-1}$

мы можем видеть, что эти два распределения одинаковы, если . Итак, давайте сначала основываемся на этой интерпретации, а затем обобщим до . $K=2$ $K>2$

В байесовской статистике бета-распределение используется в качестве сопряженного априора для биномиальных параметров (см. Бета-распределение ). Приоритет может быть определен как некоторые предварительные знания об и (или в соответствии с дистрибутивом Дирихле и ). Если какие - то биномиальные пробы , то есть успехи и неудача, заднее распределение затем следующий образом : и . (Я не буду решать это, так как это, вероятно, одна из первых вещей, которые вы узнаете с помощью байесовской статистики). $\alpha$ $\beta$ $\alpha_1$ $\alpha_2$ $A$ $B$ $\alpha_{1,pos} = \alpha_1 + A$ $\alpha_{2,pos}=\alpha_2 + B$

Таким образом, бета-распределение представляет некоторое апостериорное распределение по и , которое можно интерпретировать как вероятность успехов и неудач соответственно в биномиальном распределении. И чем больше у вас данных ( и ), тем уже будет это апостериорное распределение. $x_1$ $x_2 (=1-x_1)$ $A$ $B$

Теперь мы знаем, как работает распределение для , мы можем обобщить его для работы с многочленным распределением вместо биномиального. Это означает, что вместо двух возможных результатов (успех или неудача) мы допустим результатов (см., Почему оно обобщается до бета / бинома, если ?). Каждый из этих результатов будет иметь вероятность , которая равна 1, как и вероятности. $K=2$ $K$ $K=2$ $K$ $x_i$

$\alpha_i$ Затем берет на себя роль, аналогичную и в бета-дистрибутиве, как и ранее для и обновляется аналогичным образом. $\alpha_1$ $\alpha_2$ $x_i$

Итак, теперь, чтобы перейти к вашим вопросам:

Как alphasвлияет на распределение?

Распределение ограничено ограничениями и . определить , какие части - мерного пространства получить максимальную массу. Вы можете видеть это на этом изображении (не встраивая это здесь, потому что я не являюсь владельцем изображения). Чем больше данных имеется в последнем (используя эту интерпретацию), тем выше , поэтому тем более вы уверены в значении или вероятностях для каждого из результатов. Это означает, что плотность будет более концентрированной. $x_i \in (0,1)$ $\sum_{i=1}^Kx_i = 1$ $\alpha_i$ $K$ $\sum_{i=1}^K\alpha_i$ $x_i$

Как alphasнормализуется?

Нормализация распределения (убедившись, что интеграл равен 1) проходит через член : $B(\boldsymbol{\alpha})$

B (α) = \frac{\prod_{i = 1}^{K} Γ (α_{i})}{Γ (\sum_{i = 1}^{K} α_{i})}

$B(\boldsymbol{\alpha}) = \frac{\prod_{i=1}^K\Gamma(\alpha_i)}{\Gamma(\sum_{i=1}^K\alpha_i)}$

Опять же, если мы посмотрим на случай то увидим, что нормализующий фактор такой же, как в бета-распределении, в котором использовалось следующее: $K=2$

B (α_{1}, α_{2}) = \frac{Γ (α_{1}) Γ (α_{2})}{Γ (α_{1} + α_{2})}

$B(\alpha_1, \alpha_2) = \frac{\Gamma(\alpha_1)\Gamma(\alpha_2)}{\Gamma(\alpha_1+\alpha_2)}$

Это распространяется на

B (α) = \frac{Γ (α_{1}) Γ (α_{2}) \dots Γ (α_{K})}{Γ (α_{1} + α_{2} + \dots + α_{K})}

$B(\boldsymbol{\alpha}) = \frac{\Gamma(\alpha_1)\Gamma(\alpha_2)\dots\Gamma(\alpha_K)}{\Gamma(\alpha_1+\alpha_2+\dots+\alpha_K)}$

Что происходит, когда альфы не являются целыми числами?

Интерпретация не изменяется для , но, как вы можете видеть на изображении, которое я связывал ранее , если то масса распределения накапливается по краям диапазона для . с другой стороны, должно быть целым числом, а . $\alpha_i>1$ $\alpha_i < 1$ $x_i$ $K$ $K\geq2$

JAD
источник

Спасибо за это. Ваше объяснение было супер полезным. Я хотел бы отметить их обоих как правильные.

О.Рка