Параметры максимального правдоподобия отклоняются от апостериорных распределений

11

У меня есть функция правдоподобия L(d|θ) для вероятности моих данных учетом некоторых параметров модели , которые я хотел бы оценить. Принимая плоские априорные значения параметров, вероятность пропорциональна апостериорной вероятности. Я использую метод MCMC для выборки этой вероятности.dθрN

Глядя на полученную сходящуюся цепочку, я обнаружил, что параметры максимального правдоподобия не соответствуют апостериорным распределениям. Например, маргинализованное апостериорное распределение вероятностей для одного из параметров может быть , тогда как значение в точке максимального правдоподобия равно , по существу являясь почти максимальным значением пройденным сэмплером MCMC.θ0~N(μзнак равно0,σ2знак равно1)θ0θ0ML4θ0

Это иллюстративный пример, а не мои реальные результаты. Вещественные распределения намного сложнее, но некоторые из параметров ML имеют аналогично маловероятные p-значения в их соответствующих апостериорных распределениях. Обратите внимание, что некоторые из моих параметров ограничены (например, ); в пределах границ приоры всегда одинаковы.0θ11

Мои вопросы:

  1. Является ли такое отклонение проблемой само по себе ? Очевидно, я не ожидаю, что параметры ML точно совпадают с максимумами каждого из их маргинализированных задних распределений, но интуитивно кажется, что их также не следует искать глубоко в хвостах. Это отклонение автоматически аннулирует мои результаты?

  2. Является ли это обязательно проблематичным или нет, может ли это быть симптомом конкретной патологии на каком-то этапе анализа данных? Например, можно ли сделать какое-либо общее утверждение о том, может ли такое отклонение быть вызвано неправильно сходимой цепью, неправильной моделью или чрезмерно жесткими границами параметров?

mgc70
источник

Ответы:

15

С плоскими априорами задняя часть идентична с вероятностью до константы. таким образом

  1. MLE (оцененный с помощью оптимизатора) должен быть идентичен MAP (максимальное апостериорное значение = многомерный режим апостериорного, оцененный с помощью MCMC). Если вы не получите то же значение, у вас есть проблема с вашим сэмплером или оптимизатором.

  2. Для сложных моделей очень распространено, что маргинальные моды отличаются от MAP. Это происходит, например, если корреляции между параметрами нелинейны. Это совершенно нормально, но маргинальные моды не должны поэтому интерпретироваться как точки наибольшей апостериорной плотности и не должны сравниваться с MLE.

  3. В вашем конкретном случае, однако, я подозреваю, что апостериор пересекает предшествующую границу. В этом случае апостериор будет сильно асимметричным, и не имеет смысла интерпретировать его как среднее значение sd. В этой ситуации нет принципиальной проблемы, но на практике это часто намекает на неправильную спецификацию модели или плохо выбранные априорные характеристики.

Флориан Хартиг
источник
15

Некоторые возможные общие объяснения этого предполагаемого расхождения, при условии, конечно, что нет проблем с определением кода или вероятности или реализацией MCMC или числом итераций MCMC или сходимостью максимизатора вероятности (спасибо, Jacob Socolar ):

  1. NNθ|Икс~NN(0,яN)θN-22N0

  2. В то время как MAP и MLE действительно смешиваются при плоском априоре, предельные плотности различных параметров модели могут иметь (предельные) моды, которые находятся далеко от соответствующих MLE (то есть MAP).

  3. MAP - это позиция в пространстве параметров, где апостериорная плотность является самой высокой, но это не дает никаких указаний на задний вес или объем для окрестностей MAP. Очень тонкий колос не имеет заднего веса. Это также причина, по которой MCMC-исследование задней части может столкнуться с трудностями при идентификации задней модели.

  4. Тот факт, что большинство параметров ограничено, может привести к тому, что некоторые компоненты MAP = MLE возникнут на границе.

См., Например, Druihlet and Marin (2007) для аргументов о небайесовской природе оценок MAP. Одним из них является зависимость от этих оценок от доминирующей меры, а другой является отсутствие инвариантности при репараметризации (в отличие от MLE).

В качестве примера пункта 1 выше приведен короткий код R

N=100
T=1e4
lik=dis=rep(0,T)
mu=rmvnorm(1,mean=rep(0,N))
xobs=rmvnorm(1,mean=rep(0,N))
lik[1]=dmvnorm(xobs,mu,log=TRUE)
dis[1]=(xobs-mu)%*%t(xobs-mu)
for (t in 2:T){
  prop=rmvnorm(1,mean=mu,sigma=diag(1/N,N))
  proike=dmvnorm(xobs,prop,log=TRUE)
  if (log(runif(1))<proike-lik[t-1]){
    mu=prop;lik[t]=proike
     }else{lik[t]=lik[t-1]}
    dis[t]=(xobs-mu)%*%t(xobs-mu)}

которая имитирует случайную последовательность Метрополиса-Гастингса в измерении N = 100. Значение логарифмического правдоподобия в MAP составляет -91,89, но вероятности посещения никогда не приближаются:

> range(lik)
[1] -183.9515 -126.6924

что объясняется тем, что последовательность никогда не приближается к наблюдению:

> range(dis)
[1]  69.59714 184.11525
Сиань
источник
3
Я бы просто добавил, что помимо беспокойства об определении кода или вероятности или реализации MCMC, OP может также беспокоиться о том, не попало ли программное обеспечение, использованное для получения оценки ML, в локальный оптимум. stats.stackexchange.com/questions/384528/…
Джейкоб Соколар