Рисование образцов из конечной смеси нормальных распределений?

10

После некоторых шагов байесовского обновления у меня осталось апостериорное распределение в виде смеси нормальных распределений,Таким образом, параметр \ theta взят из распределения, PDF которого задан как взвешенная смесь нормальных PDF, и не является суммой нормальных RV. Я хотел бы нарисовать образцы \ theta \ sim \ Pr (\ theta | \ text {data}), чтобы использовать их в приближении выборки по важности. На практике сумма над i может иметь большое количество слагаемых, поэтому нецелесообразно выбирать термин i в соответствии с весами \ {w_i \} и затем рисовать \ theta \ sim N (\ mu_i, \ sigma ^ 2)θ θ Pr ( θ | данные ) i i { w i } θ N ( μ i , σ 2 )

Pr(θ|данные)знак равноΣязнак равно1КвесяN(μя,σ2),
θθ~Pr(θ|данные)яя{wi}θN(μi,σ2), Есть ли эффективный способ получения образцов из задней части этой формы?
Крис Гранаде
источник
Вы на самом деле пытались выбрать метод затем бросить? Выбор может быть сделан достаточно быстро за O (k) шагов.
dmckee --- котенок экс-модератора
1
Если решение Баррона действительно неверно, и вы на самом деле имеете в виду «модель смешения», не могли бы вы использовать этот термин?
Нил Дж
1
Нил Дж .: По профессии я не статистик, а физик, которому иногда нужно использовать статистику. Поэтому я не знал подходящего термина для описания того, что мне нужно. Теперь я могу продолжить и отредактировать вопрос, чтобы прояснить, что PDF-файлы суммируются, а не RV.
Крис Гранаде
1
@ChrisGranade: я не пытался обрушиться на тебя. Я просто хотел убедиться, что вы это имели в виду, и предложить редактирование.
Нил Дж
1
Почему нецелесообразно выбирать на основе весов и выборки из равномерного распределения на , а затем выборки ? Это только умеренно дороже, чем выборка одного нормального распределения, стоимость не зависит от количества смешанных распределений и не зависит от того, являются ли эти распределения нормальными. { w i } [ 0 , 1 ] N ( μ i , σ 2 ) ki{wi}[0,1]N(μi,σ2)К
Джед Браун

Ответы:

6

В принципе, можно предварительно выбрать количество выборок, которые будут взяты из каждого субраспределения, затем посетить каждый субраспределение только один раз и набрать количество точек.

Это

  1. Найдите случайный набор такой, что и с учетом весов.<n1,n2,,nk>n=i=1kni

    Я полагаю, что вы делаете это, рисуя распределение Пуассона для полиномиального распределения (см. Комментарии) среднего значения для каждого перераспределения, а затем нормализует сумму к .winn

    Работа здесьO(k)O(n)

  2. Тогда делай

    for (i=1; i<=k; ++i)
       for (j=1; j<=n[i]; ++j)
          theta ~ N(mu[i],sigma[i])
    

    Работа здесьO(n)

Хотя это означает, что вы не получите в случайном порядке. Если требуется случайный порядок, вы должны перетасовать дро (также большой ).O(n)

Похоже, что первый шаг является доминирующим во время выполнения и того же порядка, что и простой алгоритм, но если вы уверены, что все вы можете аппроксимировать распределения Пуассона с нормальными распределениями и ускорить первый шаг.win1

dmckee --- котенок экс-модератора
источник
Распределение является не распределением Пуассона, если n фиксировано, а биномиальным распределением. nin
Фредерик Гроссханс
@ FrédéricGrosshans Хм ... вот где я признаю свою печальную слабость в вероятности. Глядя я думаю, что вы можете быть правы. У меня нет ссылки для создания произвольных биномиальных распределений, но в Википедии есть некоторые ссылки . Есть также отношения между Пуассоном и Биномиалом, которые, как я собираюсь заявить, были причиной моей неопределенности. Да, это билет.
dmckee --- котенок экс-модератора
1
@dmckee: Хороший ответ для рисования из смешанной модели, за исключением того, что это должно быть многочленное распределение, а не распределение Пуассона на шаге 1.
Нил Дж
3

Примечание. В оригинальной версии этого вопроса был задан вопрос о «взвешенной сумме нормальных распределений», на которую может пригодиться следующий ответ. Однако после продолжительного обсуждения этого ответа, ответа @Geoff и самого вопроса выяснилось, что вопрос на самом деле касался выборки «смеси нормальных распределений», к которой этот ответ неприменим.


Сумма нормальных распределений является нормальным распределением, поэтому вы можете рассчитать параметры этого единственного распределения, а затем просто извлечь из него выборки. Если мы называем это распределение тоN(μsum,σsum2)

μsum=i=1kwiμi

σsum2=i=1kwi2σi2
Barron
источник
3
Проще говоря, Крис суммирует функции плотности вероятности, а не случайные величины.
Джефф Оксберри
2
Крис хочет PDF, в котором есть (по крайней мере, в принципе) несколько ударов. То есть он был суммой PDF, а не PDF суммы.
dmckee --- котенок экс-модератора
1
Это правда, что сумма нормально распределенных случайных величин сама по себе является нормально распределенной случайной величиной. Однако сумма нормальных распределений не является нормальным распределением. Поэтому, если и X 2N ( μ 2 , σ 2 2 ) , верно, что X 1 + X 2N ( μ 1 + μ 2 , σ 2 1X1N(μ1,σ12)X2N(μ2,σ22) , но P D F ( X 1 + X 2 ) P D F ( X 1 ) + P D F ( X 2 ) . (Благодарность идет к @ChrisGranade для объяснения.)X1+X2N(μ1+μ2,σ12+σ22)PDF(X1+X2)PDF(X1)+PDF(X2)
Джефф Оксберри
2
@dmckee: это не «взвешенная сумма нормальных распределений», это «смесь нормальных распределений».
Нил Дж
2
Комментарии @Barron не считаются важной частью страницы. Вы обязательно должны отредактировать свой ответ, включив суть комментариев, чтобы читатели, которые не смотрят на комментарии, не были введены в заблуждение.
Дэвид Кетчесон
2

Обновление : этот ответ неправильный, проистекающий из путаницы в терминологии (подробности см. В цепочке комментариев ниже); Я оставляю это только в качестве ориентира, чтобы люди не публиковали этот ответ (кроме Баррона). Пожалуйста, не голосуйте за это.

X1N(μ1,σ12)X2N(μ2,σ22)

X1+X2N(μ1+μ2,σ12+σ22).

w1R

w1X1N(w1μ1,w12σ12).

Используя эти два результата вместе, затем

Pr(θ|data)N(i=1kwiμi,i=1kwi2σi2).

Таким образом, в этом случае вам нужно будет только извлечь выборки из одного дистрибутива, который должен быть гораздо более удобным.

Джефф Оксберри
источник
2
Это решение другой проблемы, которое видно из того факта, что исходный дистрибутив является мультимодальным, а ваше предложение - одномодальным.
Крис Ферри
@ChrisFerrie: Я вам верю, но, исходя из обозначений, я запутался в том, почему приведенное выше распределение будет мультимодальным, а сумма двух независимых гауссовских случайных величин не будет. Что мне здесь не хватает?
Джефф Оксберри
p(X1+X2)p(X1)+p(X2)i
Ах, вы смотрите на суммы PDF-файлов. Да, это совершенно другой зверь. Теперь, когда я прочитал вопрос более внимательно, я понимаю, что вы говорите, и я собираюсь удалить свой ответ. Спасибо!
Джефф Оксберри
Я удалил свой ранее удаленный ответ только для того, чтобы служить ориентиром для других, чтобы никто другой не ответил на этот вопрос, как мы с Бэрроном. Пожалуйста, не голосуйте больше за мой ответ.
Джефф Оксберри