Рисование образцов из конечной смеси нормальных распределений?

После некоторых шагов байесовского обновления у меня осталось апостериорное распределение в виде смеси нормальных распределений,Таким образом, параметр взят из распределения, PDF которого задан как взвешенная смесь нормальных PDF, и не является суммой нормальных RV. Я хотел бы нарисовать образцы чтобы использовать их в приближении выборки по важности. На практике сумма над может иметь большое количество слагаемых, поэтому нецелесообразно выбирать термин соответствии с весами и затем рисовать

Pr (θ | данные) знак равно Σ_{я знак равно 1}^{К} {вес}_{я} N (μ_{я}, σ^{2}),

$\Pr(\theta| \text{data} ) = \sum_{i=1}^k w_i N(\mu_i, \sigma^2).$

θ

$\theta$

θ \sim Pr (θ | data)

$\theta\sim\Pr(\theta|\text{data})$

i

$i$

i

$i$

{w_{i}}

$\{w_i\}$

θ \sim N (μ_{i}, σ^{2})

$\theta\sim N(\mu_i, \sigma^2)$ , Есть ли эффективный способ получения образцов из задней части этой формы?

monte-carlo probability Крис Гранаде
источник

Вы на самом деле пытались выбрать метод затем бросить? Выбор может быть сделан достаточно быстро за O (k) шагов.

dmckee --- котенок экс-модератора

Если решение Баррона действительно неверно, и вы на самом деле имеете в виду «модель смешения», не могли бы вы использовать этот термин?

Нил Дж

Нил Дж .: По профессии я не статистик, а физик, которому иногда нужно использовать статистику. Поэтому я не знал подходящего термина для описания того, что мне нужно. Теперь я могу продолжить и отредактировать вопрос, чтобы прояснить, что PDF-файлы суммируются, а не RV.

Крис Гранаде

@ChrisGranade: я не пытался обрушиться на тебя. Я просто хотел убедиться, что вы это имели в виду, и предложить редактирование.

Нил Дж

Почему нецелесообразно выбирать на основе весов и выборки из равномерного распределения на , а затем выборки ? Это только умеренно дороже, чем выборка одного нормального распределения, стоимость не зависит от количества смешанных распределений и не зависит от того, являются ли эти распределения нормальными.

i

$i$

{w_{i}}

$\{w_i\}$

[0, 1]

$[0,1]$

N (μ_{i}, σ^{2})

$N(\mu_i,\sigma^2)$

k

$k$

Джед Браун

Ответы:

В принципе, можно предварительно выбрать количество выборок, которые будут взяты из каждого субраспределения, затем посетить каждый субраспределение только один раз и набрать количество точек.

Это

Найдите случайный набор такой, что и с учетом весов. $<n_1, n_2, \dots, n_k>$ $n = \sum_{i=1}^k n_i$

Я полагаю, что вы делаете это, ~~рисуя распределение Пуассона~~ для полиномиального распределения (см. Комментарии) среднего значения для каждого перераспределения, а затем нормализует сумму к . $w_i * n$ $n$

Работа здесь $\mathcal{O}(k) * \mathcal{O}(n)$

Тогда делай

for (i=1; i<=k; ++i)
   for (j=1; j<=n[i]; ++j)
      theta ~ N(mu[i],sigma[i])

Работа здесь $\mathcal{O}(n)$

Хотя это означает, что вы не получите в случайном порядке. Если требуется случайный порядок, вы должны перетасовать дро (также большой ). $\mathcal{O}(n)$

Похоже, что первый шаг является доминирующим во время выполнения и того же порядка, что и простой алгоритм, но если вы уверены, что все вы можете аппроксимировать распределения Пуассона с нормальными распределениями и ускорить первый шаг. $w_i * n \gg 1$

dmckee --- котенок экс-модератора
источник

Распределение

является не распределением Пуассона, если

фиксировано, а биномиальным распределением.

n_{i}

$n_i$

n

$n$

Фредерик Гроссханс

@ FrédéricGrosshans Хм ... вот где я признаю свою печальную слабость в вероятности. Глядя я думаю, что вы можете быть правы. У меня нет ссылки для создания произвольных биномиальных распределений, но в Википедии есть некоторые ссылки . Есть также отношения между Пуассоном и Биномиалом, которые, как я собираюсь заявить, были причиной моей неопределенности. Да, это билет.

dmckee --- котенок экс-модератора

@dmckee: Хороший ответ для рисования из смешанной модели, за исключением того, что это должно быть многочленное распределение, а не распределение Пуассона на шаге 1.

Нил Дж

Примечание. В оригинальной версии этого вопроса был задан вопрос о «взвешенной сумме нормальных распределений», на которую может пригодиться следующий ответ. Однако после продолжительного обсуждения этого ответа, ответа @Geoff и самого вопроса выяснилось, что вопрос на самом деле касался выборки «смеси нормальных распределений», к которой этот ответ неприменим.

Сумма нормальных распределений является нормальным распределением, поэтому вы можете рассчитать параметры этого единственного распределения, а затем просто извлечь из него выборки. Если мы называем это распределение то $N(\mu_{sum},\sigma_{sum}^2)$

μ_{s u m} = \sum_{i = 1}^{k} w_{i} μ_{i}

$\mu_{sum} = \sum_{i=1}^k w_i\mu_i$

σ_{s u m}^{2} = \sum_{i = 1}^{k} w_{i}^{2} σ_{i}^{2}

$\sigma_{sum}^2=\sum_{i=1}^k w_i^2 \sigma_i^2$

Barron
источник

Проще говоря, Крис суммирует функции плотности вероятности, а не случайные величины.

Джефф Оксберри

Крис хочет PDF, в котором есть (по крайней мере, в принципе) несколько ударов. То есть он был суммой PDF, а не PDF суммы.

dmckee --- котенок экс-модератора

Это правда, что сумма нормально распределенных случайных величин сама по себе является нормально распределенной случайной величиной. Однако сумма нормальных распределений не является нормальным распределением. Поэтому, если

, верно, что

X_{1} \sim N (μ_{1}, σ_{1}^{2})

$X_{1} \sim N(\mu_{1},\sigma_{1}^2)$

X_{2} \sim N (μ_{2}, σ_{2}^{2})

$X_{2} \sim N(\mu_{2}, \sigma_{2}^{2})$

, но

. (Благодарность идет к @ChrisGranade для объяснения.)

X_{1} + X_{2} \sim N (μ_{1} + μ_{2}, σ_{1}^{2} + σ_{2}^{2})

$X_{1} + X_{2} \sim N(\mu_{1} + \mu_{2}, \sigma_{1}^{2} + \sigma_{2}^{2})$

P D F (X_{1} + X_{2}) \neq P D F (X_{1}) + P D F (X_{2})

$PDF(X_{1} + X_{2}) \neq PDF(X_{1}) + PDF(X_{2})$

Джефф Оксберри

@dmckee: это не «взвешенная сумма нормальных распределений», это «смесь нормальных распределений».

Нил Дж

Комментарии @Barron не считаются важной частью страницы. Вы обязательно должны отредактировать свой ответ, включив суть комментариев, чтобы читатели, которые не смотрят на комментарии, не были введены в заблуждение.

Дэвид Кетчесон

Обновление : этот ответ неправильный, проистекающий из путаницы в терминологии (подробности см. В цепочке комментариев ниже); Я оставляю это только в качестве ориентира, чтобы люди не публиковали этот ответ (кроме Баррона). Пожалуйста, не голосуйте за это.

$X_{1} \sim N(\mu_{1}, \sigma_{1}^{2})$ $X_{2} \sim N(\mu_{2}, \sigma_{2}^{2})$

X_{1} + X_{2} \sim N (μ_{1} + μ_{2}, σ_{1}^{2} + σ_{2}^{2}) .

$X_{1} + X_{2} \sim N(\mu_{1} + \mu_{2}, \sigma_{1}^{2} + \sigma_{2}^{2}).$

$w_{1} \in \mathbb{R}$

w_{1} X_{1} \sim N (w_{1} μ_{1}, w_{1}^{2} σ_{1}^{2}) .

$w_{1}X_{1} \sim N(w_{1}\mu_{1}, w_{1}^{2}\sigma_{1}^{2}).$

Используя эти два результата вместе, затем

P r (θ | d a t a) \sim N (\sum_{i = 1}^{k} w_{i} μ_{i}, \sum_{i = 1}^{k} w_{i}^{2} σ_{i}^{2}) .

$Pr(\theta | \rm{data}) \sim N\big(\sum_{i=1}^{k}w_{i}\mu_{i}, \sum_{i=1}^{k}w_{i}^{2}\sigma_{i}^{2}\big).$

Таким образом, в этом случае вам нужно будет только извлечь выборки из одного дистрибутива, который должен быть гораздо более удобным.

Джефф Оксберри
источник

Это решение другой проблемы, которое видно из того факта, что исходный дистрибутив является мультимодальным, а ваше предложение - одномодальным.

Крис Ферри

@ChrisFerrie: Я вам верю, но, исходя из обозначений, я запутался в том, почему приведенное выше распределение будет мультимодальным, а сумма двух независимых гауссовских случайных величин не будет. Что мне здесь не хватает?

Джефф Оксберри

p (X_{1} + X_{2}) \neq p (X_{1}) + p (X_{2})

$p(X_1 + X_2)\ne p(X_1) + p(X_2)$

i

$i$

Ах, вы смотрите на суммы PDF-файлов. Да, это совершенно другой зверь. Теперь, когда я прочитал вопрос более внимательно, я понимаю, что вы говорите, и я собираюсь удалить свой ответ. Спасибо!

Джефф Оксберри

Я удалил свой ранее удаленный ответ только для того, чтобы служить ориентиром для других, чтобы никто другой не ответил на этот вопрос, как мы с Бэрроном. Пожалуйста, не голосуйте больше за мой ответ.

Джефф Оксберри