моделирование случайных выборок с заданным MLE

17

Этот перекрестный вопрос, в котором задавался вопрос об имитации выборки с условием наличия фиксированной суммы, напомнил мне проблему, поставленную мне Джорджем Казеллой .

Учитывая параметрическую модель f(x|θ) и iid-образец из этой модели (X1,,Xn) , MLE of определяется как Для заданного значения \ theta существует ли общий способ имитации образца iid (X_1, \ ldots, X_n) в зависимости от значения MLE \ hat {\ theta} (X_1, \ ldots, X_n) ?θ

θ^(x1,,xn)=argmini=1nlogf(xi|θ)
θ & thetas ; (X1,...,Хп)(X1,,Xn)θ^(X1,,Xn)

Например, возьмите распределение T5 с параметром местоположения μ , плотность которого равна

f(x|μ)=Γ(3)Γ(1/2)Γ(5/2)[1+(xμ)2/5]3
If
(X1,,Xn)iidf(x|μ)
как мы можем смоделировать (X1,,Xn) условно на μ^(X1,,Xn)=μ0 ? В этом примере T5 распределение μ^(X1,,Xn) не имеет выражения закрытой формы.
Сиань
источник

Ответы:

20

Одним из вариантов будет использование ограниченного варианта HMC, как описано в книге «Семейство методов MCMC для неявно определенных коллекторов » Brubaker et al. (1). Это требует, чтобы мы могли выразить условие, что оценка максимального правдоподобия параметра местоположения равна некоторому фиксированному как некоторому неявно определенному (и дифференцируемому) голономному ограничению . Затем мы можем смоделировать ограниченную гамильтонову динамику с учетом этого ограничения и принять / отклонить на шаге Метрополиса-Гастингса, как в стандартной HMC. c ( { x i } N i = 1 ) = 0μ0c({xi}i=1N)=0

Отрицательное логарифмическое правдоподобие: который имеет частные производные первого и второго порядка по параметр местоположения Оценка максимального правдоподобия затем неявно определяется как решение μL

L=i=1N[logf(xi|μ)]=3i=1N[log(1+(xiμ)25)]+constant
μ μ0c=Ni=1[2(μ0-xi)
Lμзнак равно3Σязнак равно1N[2(μ-Икся)5+(μ-Икся)2]и2Lμ2знак равно6Σязнак равно1N[5-(μ-Икся)2(5+(μ-Икся)2)2],
μ0
сзнак равноΣязнак равно1N[2(μ0-Икся)5+(μ0-Икся)2]знак равно0при условииΣязнак равно1N[5-(μ0-Икся)2(5+(μ0-Икся)2)2]>0.

Я не уверен, есть ли какие-либо результаты, свидетельствующие о том, что для задан уникальный MLE для заданного - плотность не является вогнутой в поэтому она не выглядит тривиально, чтобы гарантировать это. Если существует единственное единственное решение, вышеупомянутое неявно определяет связное мерное многообразие, вложенное в соответствующее набору с MLE для равным к{ x i } N i = 1 μ N - 1 R N { x i } N i = 1 μ μ 0μ{Икся}язнак равно1NμN1RN{xi}i=1Nμμ0, Если существует несколько решений, то многообразие может состоять из нескольких несвязных компонентов, некоторые из которых могут соответствовать минимумам в функции правдоподобия. В этом случае нам понадобится какой-то дополнительный механизм перемещения между несвязанными компонентами (поскольку моделируемая динамика, как правило, останется ограниченным одним компонентом), а также проверка условия второго порядка и отклонение перемещения, если оно соответствует перемещению в минимум в вероятности.

Если мы используем для обозначения вектора и вводим сопряженное импульсное состояние с матрицей масс и лагранжем множитель для скалярного ограничения затем решение системы ОДУ [ x 1x N ] T p M λ c ( x ) d xx[x1xN]TpMλc(x)

dxdt=M1p,dpdt=Lxλcxsubject toc(x)=0andcxM1p=0
заданное начальное условие с и , определяет ограниченную гамильтонову динамику, которая остается ограниченной многообразием ограничений, обратима во времени и точно сохраняет гамильтониан и элемент объема многообразия. Если мы используем симплектический интегратор для ограниченных гамильтоновых систем, таких как SHAKE (2) или RATTLE (3), которые точно поддерживают ограничение на каждом временном шаге, решая множитель Лагранжа, мы можем смоделировать точное динамическое прямое дискретных временных шагов c ( x 0 ) = 0 cx(0)=x0, p(0)=p0c(x0)=0cx|x0M1p0=0Lδtиз некоторого начального ограничения, удовлетворяющего и принимающего предлагаемую новую пару состояний с вероятностью Если мы чередуем эти динамические обновления с частичной / полной передискретизацией импульсов от их гауссовского маргинала (ограниченного линейным подпространством, определяемымx,px,p
мин{1,ехр[L(Икс)-L(Икс')+12пTM-1п-12п'TM-1п']},
сИксM-1пзнак равно0) затем по модулю возможности наличия нескольких несвязанных компонентов многообразия ограничений, общая динамика MCMC должна быть эргодической, а выборки состояния конфигурации будут охватывать распределение до целевой плотности, ограниченной ограниченным многообразием.Икс

Чтобы увидеть, как ограниченная HMC работала в этом случае, я запустил реализацию ограниченной HMC на основе геодезического интегратора, описанную в (4) и доступную на Github здесь (полное раскрытие: я автор (4) и владелец репозитория Github), который использует вариацию интеграторной схемы «геодезическая-BAOAB», предложенную в (5), без стохастического шага Орнштейна-Уленбека. По моему опыту, эта схема геодезической интеграции, как правило, немного легче настраивается, чем схема RATTLE, используемая в (1), из-за дополнительной гибкости использования нескольких меньших внутренних шагов для геодезического движения на многообразии ограничений. Блокнот IPython, генерирующий результаты, доступен здесь .

Я использовал , и . Первоначальный соответствующий MLE был найден методом Ньютона (с проверкой производной второго порядка, чтобы убедиться, что максимумы правдоподобия найдены). Я запустил ограниченную динамику с , чередованием с полным обновлением импульса для 1000 обновлений. На графике ниже показаны полученные следы на трех компонентахNзнак равно3μзнак равно1μ0знак равно2Иксμ0δTзнак равно0,5Lзнак равно5Икс

Графики трассировки для примера 3D

и соответствующие значения производных первого и второго порядка отрицательного логарифмического правдоподобия показаны ниже

Графики производных трасс логарифмического правдоподобия

из которого видно, что мы имеем максимальную логарифмическую вероятность для всех выборок . Хотя это не так легко увидеть на отдельных графиках трассировки, выборка лежит на двумерном нелинейном многообразии, встроенном в - на приведенной ниже анимации показаны образцы в 3DИксИкср3

3D визуализация образцов, ограниченных 2D коллектором

В зависимости от интерпретации ограничения может также потребоваться отрегулировать плотность цели с помощью некоторого коэффициента Якоби, как описано в (4). В частности, если мы хотим, чтобы результаты соответствовали пределу при использовании подхода, подобного ABC, чтобы приблизительно поддерживать ограничение, предлагая неограниченные перемещения в и принимая if , тогда нам нужно умножить целевую плотность на . В приведенном выше примере я не включил эту настройку, поэтому выборки взяты из исходной целевой плотности, ограниченной ограничивающим коллектором.ε0рN|с(Икс)|<εсИксTсИкс

Ссылки

  1. М.А. Брубейкер, М. Зальцманн и Р. Уртасун. Семейство методов MCMC на неявно определенных многообразиях. В материалах 15-й Международной конференции по искусственному интеллекту и статистике , 2012 г.
    http://www.cs.toronto.edu/~mbrubake/projects/AISTATS12.pdf

  2. Ж.-П. Ryckaert, G. Ciccotti и HJ Berendsen. Численное интегрирование декартовых уравнений движения системы со связями: молекулярная динамика н-алканов. Журнал вычислительной физики , 1977.
    http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.399.6868

  3. ХК Андерсен. RATTLE: «скоростной» вариант алгоритма SHAKE для расчетов молекулярной динамики. Журнал вычислительной физики , 1983.
    http://www.sciencedirect.com/science/article/pii/0021999183900141

  4. М. М. Грэм и А. Дж. Сторки. Асимптотически точный вывод в моделях без правдоподобия. Предварительная печать arXiv arXiv: 1605.07826v3 , 2016.
    https://arxiv.org/abs/1605.07826

  5. B. Leimkuhler и C. Matthews. Эффективная молекулярная динамика с использованием геодезической интеграции и расщепления растворитель-раствор. Proc. R. Soc. А. Том. 472. № 2189. Королевское общество , 2016.
    http://rspa.royalsocietypublishing.org/content/472/2189/20160138.abstract

Мэтт Грэм
источник
3
Блестящие и открывающие новые и яркие перспективы! Спасибо.
Сиань