Предположим, я хочу сделать выборку из непрерывного распределения . Если у меня есть выражение в видер
где и f_i - это распределения, из которых можно легко брать выборки, тогда я могу легко сгенерировать выборки из p : р
- Выборка метки с вероятностью
- Выборка
Можно ли обобщить эту процедуру, если иногда отрицательны? Я подозреваю, что видел, как это где-то сделано - возможно, в книге, возможно, для рассылки Колмогорова - поэтому я был бы очень рад принять ссылку в качестве ответа.
Если конкретный пример с игрушкой полезен, скажем, я хотел бы взять пример из
В принципе, я мог бы затем расширить это как следующую сумму:
-термины внутри сумма может быть затем независимо от пробы , как гамма случайных величин случайным образом . Моя проблема, очевидно, в том, что коэффициенты «иногда» отрицательны.
Редактировать 1 : Я уточняю, что я стремлюсь генерировать точные выборки из , а не вычислять ожидания по . Для тех, кто заинтересован, некоторые процедуры для этого упоминаются в комментариях.
Редактировать 2 : Я нашел ссылку, которая включает в себя особый подход к этой проблеме, в «Неоднородном генерации случайных вариаций» Девроя . Алгоритм взят из «Заметки о выборке из комбинаций распределений» Бингами и де Маттеиса . Метод заключается в том, чтобы эффективно связать плотность сверху с помощью положительных членов суммы, а затем использовать выборку отклонения, основанную на этом конверте. Это соответствует методу, описанному в ответе @ Xi'an.
Ответы:
Я ломал голову над этим вопросом, но так и не нашел удовлетворительного решения.
Одно свойство, которое возможно использовать, состоит в том, что, если плотность записывает где является плотность такая, что , симуляция из и отклонение этих симуляций с вероятностью обеспечивает симуляции из . В данном случае является нормализованной версией положительных весовых компонент и - остаток
Первый вычислительный недостаток этого подхода состоит в том, что, несмотря на первое моделирование из выбранного компонента , суммы для и должны быть вычислены для этапа отклонения. Если суммы бесконечны без закрытой версии, это делает невозможным реализацию метода accept-reject .fi g h
Вторая трудность заключается в том, что, поскольку обе суммы весов имеют одинаковый порядок коэффициент отклоненияне имеет верхнего предела. На самом деле, если ряд, связанный с , не является абсолютно сходящимся, вероятность принятия равна нулю! И метод не может быть реализован в этой ситуации.
В случае смешанного представления, если можно записать как сначала можно выбрать компонент, а затем метод, примененный к компоненту. Но это может быть деликатным для реализации, так как идентификация пар которые соответствуют из возможно бесконечной суммы, не всегда выполнима.f
Я думаю, что более эффективное разрешение могло бы прийти из самого представления серии. Devroye, Неоднородная генерация случайных вариаций, раздел IV.5, содержит широкий спектр последовательных методов. Как, например, следующий алгоритм для представления альтернативного ряда цели когда ' s сходятся к нулю с и является плотностью:
Эта проблема была недавно рассмотрена в контексте искажения смещенных оценок для MCMC, как, например, в подходе Глинна-Ри . И российский оценщик рулетки (в связи с проблемой фабрики Бернулли). И беспристрастная методология MCMC . Но нет выхода из проблемы знака ... Что делает его использование сложным при оценке плотностей, как в псевдо-маргинальных методах.
источник
У меня есть проект идеи, которая могла бы работать. Это не точно , но, надеюсь, асимптотически точно. Чтобы превратить его в действительно строгий метод, где аппроксимация контролируется, или что-то в этом может быть доказано, вероятно, требуется много работы.
Во-первых, как упомянул Сиань, вы можете сгруппировать положительные веса, с одной стороны, и отрицательные веса, с другой стороны, чтобы в итоге у задачи было только два распределения и :g h
с . Обратите внимание, что у вас есть .λ−μ=1 λ≥1
Моя идея заключается в следующем. Вы хотите образец наблюдений от . Делать:N p
В конце вы получаете баллов. Это не обязательно должен быть точно ближайший сосед, а просто точка, которая «достаточно близка». Первый шаг подобен созданию материи. Второй шаг похож на создание антивещества, и пусть оно сталкивается и отменяется с материей. Этот метод не является точным, но я считаю, что в некоторых условиях он асимптотически точен для больших (чтобы сделать его почти точным для малых сначала нужно использовать большое а затем взять небольшую случайную часть окончательного списка) , Я даю очень неофициальный аргумент, который является скорее объяснением, чем доказательством.(λ−μ)N=N N n N
Рассмотрим в пространстве наблюдений и небольшой объем вокруг с объемом Лебега . После выборки из число элементов в списке, которые также находятся в , приблизительно равно . После второго шага из него будет удалено приблизительно , и вы приблизительно получите желаемое число . Для этого нужно предположить, что количество точек в объеме достаточно велико.x v x ϵ g v λNg(x)ϵ μNh(x)ϵ Np(x)ϵ
Очень маловероятно, что этот метод противостоит большой размерности или некоторым патологиям и но может работать в малой размерности и достаточно гладких, «достаточно однородных» распределениях.g h
Примечание о точном методе:
Сначала я подумал об этом для дискретных распределений, и ясно, что в этом случае этот метод не является точным, поскольку он может генерировать выборки с вероятностью 0. У меня есть сильное убеждение, что точный метод невозможен с конечным временем обработки, и что это невозможность может быть доказана, по крайней мере, для дискретных распределений. Правило игры состоит в том, что вам разрешено использовать только точные сэмплеры «оракула» для и но вы не знаете и как функции от . Для простоты ограничимся распределениями Бернулли. Отсутствие точного метода связано с теорией фабрики Бернулли : если бы вы могли создать -койну изg h g h x (λp−μq) p -coin и -coin, тогда вы можете создать монету из монеты, которая, как известно, невозможна для .q λp p λ>1
источник