Я довольно новичок в байесовской статистике, и я наткнулся на исправленную меру корреляции SparCC , которая использует процесс Дирихле в бэкэнде своего алгоритма. Я пытался пройтись по алгоритму шаг за шагом, чтобы действительно понять, что происходит, но я не уверен, что именно делает alpha
параметр вектора в распределении Дирихле и как он нормализует alpha
параметр вектора?
Реализация заключается в Python
использовании NumPy
:
https://docs.scipy.org/doc/numpy/reference/generated/numpy.random.dirichlet.html
Документы говорят:
альфа: массив Параметр распределения (измерение k для выборки измерения k).
Мои вопросы:
Как
alphas
влияет на распределение ?;Как
alphas
нормализуется ?; а такжеЧто происходит, когда
alphas
не являются целыми числами?
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
# Reproducibility
np.random.seed(0)
# Integer values for alphas
alphas = np.arange(10)
# array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
# Dirichlet Distribution
dd = np.random.dirichlet(alphas)
# array([ 0. , 0.0175113 , 0.00224837, 0.1041491 , 0.1264133 ,
# 0.06936311, 0.13086698, 0.15698674, 0.13608845, 0.25637266])
# Plot
ax = pd.Series(dd).plot()
ax.set_xlabel("alpha")
ax.set_ylabel("Dirichlet Draw")
Ответы:
Распределение Дирихле - это многомерное распределение вероятностей, которое описывает переменные , такие, что каждый и , параметризованный вектор положительно-значимых параметров . Параметры не должны быть целыми числами, они должны быть только положительными действительными числами. Они никак не «нормированы», они являются параметрами этого распределения.X 1 , … , X k x i ∈ ( 0 , 1 ) ∑ N i = 1 x i = 1k≥2 X1,…,Xk xi∈(0,1) ∑Ni=1xi=1 α=(α1,…,αk)
Распределение Дирихле - это обобщение бета-распределения на несколько измерений, поэтому вы можете начать с изучения бета-распределения. Бета - это одномерное распределение случайной величины параметризованной параметрами и . Хорошая интуиция об этом появляется, если вы вспомните, что это сопряженный априор для биномиального распределения, и если мы примем бета-априор, параметризованный и для параметра вероятности биномиального распределения , то апостериорное распределение также является бета-распределение, параметризованноеα β α β p p α ′ = α + количество успехов β ′ = β + количество неудач α βX∈(0,1) α β α β p p α′=α+number of successes и . Таким образом, вы можете думать о и как о псевдосчетах (они не должны быть целыми числами) об успехах и неудачах (см. Также эту ветку ).β′=β+number of failures α β
В случае распределения Дирихле оно является сопряженным предшествующим для многочленного распределения . Если в случае биномиального распределения мы можем представить его с точки зрения рисования белых и черных шариков с заменой из урны, то в случае полиномиального распределения мы рисуем с заменой шариков, появляющихся в цветах, где каждый из цветов шаров можно нарисовать с вероятностями . Распределение Дирихле является сопряженным вероятностей и параметров как псевдосчет шариков каждого цвета, принятый априориk p 1 , … , p k p 1 , … , p k α 1 , … , α k α 1 , … , α k α 1 + n 1 , … , α k + n kN k p1,…,pk p1,…,pk α1,…,αk (но вы должны также прочитать о подводных камнях таких рассуждений ). В полиномиальной модели Дирихле обновляются путем суммирования их с наблюдаемыми значениями в каждой категории: аналогично тому, как в случае бета-биномиальной модели.α1,…,αk α1+n1,…,αk+nk
Чем выше значение , тем больше «вес» и большее количество общей «массы» присвоено ему (напомним, что в целом это должно быть ). Если все равны, распределение является симметричным. Если , его можно рассматривать как антивес, который отталкивает к экстремальным значениям, а когда он высокий, он притягивает к некоторому центральному значению (центральному в том смысле, что все точки сосредоточены вокруг него, а не в ощущение, что оно симметрично центральное). Если , то точки распределены равномерно.X i x 1 + ⋯ + x k = 1 α i α i < 1 x i x i α 1 = ⋯ = α k = 1αi Xi x1+⋯+xk=1 αi αi<1 xi xi α1=⋯=αk=1
Это можно увидеть на графиках ниже, где вы можете видеть тривариантные распределения Дирихле (к сожалению, мы можем создавать разумные графики только до трех измерений), параметризованные с помощью (a) , (b) , (c) , (d) .α 1 = α 2 = α 3 = 10 α 1 = 1 , α 2 = 10 , α 3 = 5α1=α2=α3=1 α1=α2=α3=10 α1=1,α2=10,α3=5 α1=α2=α3=0.2
Распределение Дирихле иногда называют «распределением по распределениям» , поскольку его можно рассматривать как распределение самих вероятностей. Обратите внимание, что, поскольку каждый и , то согласуются с первой и второй аксиомами вероятности . Таким образом, вы можете использовать распределение Дирихле в качестве распределения вероятностей для дискретных событий, описываемых такими распределениями, как категориальные или многочленные . Это неЕ K я = 1 х я = 1 х я Kxi∈(0,1) ∑ki=1xi=1 xi верно, что это распределение по любым распределениям, например, оно не связано с вероятностями непрерывных случайных величин или даже некоторых дискретных (например, распределенная случайная величина Пуассона описывает вероятности наблюдения значений, которые являются любыми натуральными числами, поэтому для использования Распределение Дирихле по их вероятностям, вам понадобится бесконечное количество случайных величин ).k
источник
Отказ от ответственности: я никогда не работал с этим дистрибутивом раньше. Этот ответ основан на этой статье в Википедии и моей интерпретации.
Распределение Дирихле является многомерным распределением вероятностей, схожим по свойствам с распределением Бета.
PDF определяется следующим образом:
с , и .K≥2 xi∈(0,1) ∑Ki=1xi=1
Если мы посмотрим на тесно связанный бета-дистрибутив:
мы можем видеть, что эти два распределения одинаковы, если . Итак, давайте сначала основываемся на этой интерпретации, а затем обобщим до .K=2 K>2
В байесовской статистике бета-распределение используется в качестве сопряженного априора для биномиальных параметров (см. Бета-распределение ). Приоритет может быть определен как некоторые предварительные знания об и (или в соответствии с дистрибутивом Дирихле и ). Если какие - то биномиальные пробы , то есть успехи и неудача, заднее распределение затем следующий образом : и . (Я не буду решать это, так как это, вероятно, одна из первых вещей, которые вы узнаете с помощью байесовской статистики).α β α1 α2 A B α1,pos=α1+A α2,pos=α2+B
Таким образом, бета-распределение представляет некоторое апостериорное распределение по и , которое можно интерпретировать как вероятность успехов и неудач соответственно в биномиальном распределении. И чем больше у вас данных ( и ), тем уже будет это апостериорное распределение.x1 x2(=1−x1) A B
Теперь мы знаем, как работает распределение для , мы можем обобщить его для работы с многочленным распределением вместо биномиального. Это означает, что вместо двух возможных результатов (успех или неудача) мы допустим результатов (см., Почему оно обобщается до бета / бинома, если ?). Каждый из этих результатов будет иметь вероятность , которая равна 1, как и вероятности.K=2 K K=2 K xi
Итак, теперь, чтобы перейти к вашим вопросам:
Распределение ограничено ограничениями и . определить , какие части - мерного пространства получить максимальную массу. Вы можете видеть это на этом изображении (не встраивая это здесь, потому что я не являюсь владельцем изображения). Чем больше данных имеется в последнем (используя эту интерпретацию), тем выше , поэтому тем более вы уверены в значении или вероятностях для каждого из результатов. Это означает, что плотность будет более концентрированной.xi∈(0,1) ∑Ki=1xi=1 αi K ∑Ki=1αi xi
Нормализация распределения (убедившись, что интеграл равен 1) проходит через член :B(α)
Опять же, если мы посмотрим на случай то увидим, что нормализующий фактор такой же, как в бета-распределении, в котором использовалось следующее:K=2
Это распространяется на
Интерпретация не изменяется для , но, как вы можете видеть на изображении, которое я связывал ранее , если то масса распределения накапливается по краям диапазона для . с другой стороны, должно быть целым числом, а .α i < 1 x i K K ≥ 2αi>1 αi<1 xi K K≥2
источник