Стан

16

Я просматривал документацию Стэна, которую можно скачать отсюда . Я был особенно заинтересован в их реализации диагностики Гельмана-Рубина. Оригинальная статья Gelman & Rubin (1992) определяет потенциальный коэффициент уменьшения масштаба (PSRF) следующим образом:

Пусть быть я й пробы цепь Маркова, и пусть будет в целом M независимые цепи выборочные. Пусть ˉ X i будет средним из i- й цепочки, а ˉ X будет общим средним. Определить, W = 1Xi,1,,Xi,NiMX¯iiX¯ где s 2 м =1

W=1Mm=1Msm2,
И определить B B = N
sm2=1N1t=1N(X¯mtX¯m)2.
B
B=NM1m=1M(X¯mX¯)2.

Определим V = ( N - 1 PSRF оценивается с

V^=(N1N)W+(M+1MN)B.
, где R= VR^ Где d е = 2 В / В г ( V ) .
R^=V^Wdf+3df+1,
df=2V^/Var(V^)

Документация Stan на стр. 349 игнорирует термин с а также удаляет мультипликативный термин ( M + 1 ) / M. Это их формула,df(M+1)/M

var^+(θ|y)=N1NW+1NB.
R^=var^+(θ|y)W.

M2(M+1)/Mdf

Так откуда эта формула?


РЕДАКТИРОВАТЬ: Я нашел частичный ответ на вопрос « откуда взялась эта формула? », В том, что книга Байесовского анализа данных Гельмана, Карлина, Стерна и Рубина (второе издание) имеет точно такую ​​же формулу. Однако в книге не объясняется, как / почему оправданно игнорировать эти термины?

Greenparker
источник
Пока еще нет опубликованной статьи, и формула, вероятно, изменится в ближайшие несколько месяцев.
Бен Гудрич
@BenGoodrich Спасибо за комментарий. Можете ли вы сказать что-нибудь еще о мотивации использования этой формулы? И почему именно изменится формула?
Greenparker,
1
Нынешняя формула R-шляпы с разделением - это то, как она в основном применяется для случая, когда существует только одна цепочка. Предстоящие изменения в основном связаны с тем фактом, что лежащее в основе маргинальное заднее распределение может быть ненормальным или иметь среднее значение и / или дисперсию.
Бен Гудрич
1
M=2(M+1)/M=3/2

Ответы:

4

σ^=n1nW+1nB
σ^σ^+var^+

var^+

R^=m+1mσ^+Wn1mn,
R^=σ^+W+σ^+Wmn1mn.
n

Gelman & Rubin (1992) также имели термин с df как df / (df-2). Brooks & Gelman (1998) имеют раздел, описывающий, почему это исправление df является неправильным, и определяют (df + 3) / (df + 1). Параграф перед разделом 3.1 в Brooks & Gelman (1998) объясняет, почему (d + 3) / (d + 1) можно отбросить.

σ^+Wmn1mn

R^nm

Обычно М не слишком велико, и часто может быть столь же низким, как 2

R^

Дополнительная ссылка:

  • Брукс и Гельман (1998). Журнал вычислительной и графической статистики, 7 (4) 434-455.
Аки Вехтари
источник
σ^2 как вы упоминаете, но их р^ статистика (σ^2+В/мN)/W*dеTерм (посмотрите на уравнение в верхней части страницы 495 в официальной версии Stat Science), которое представляет (м+1)/мтермин, о котором я говорил. Кроме того, посмотрите код и описание в коде пакета R, в котором диагностика GR проводится с 1999 года.
Greenparker
Я не совсем понимаю. Статья по предоставленной вами ссылке и статья с веб-страниц Stat Science содержат только страницы 457-472. Я не проверял сейчас, но много лет назад и в прошлом году, когда я проверял код, у нее не было текущей рекомендованной версии.
Аки Вехтари
Обратите внимание, что я отредактировал свой ответ. В Gelman & Brooks (1998) этот термин (m + 1) / m определен более четко, и кажется, что вы пропустили последний термин, который в основном отменяет действие термина (m + 1) / m для принятия решения. Смотрите этот абзац перед разделом 3.1.
Аки Вехтари
Извините за это, это была опечатка. Это страница 465, и у Гельмана и Рубина такое же точное определение, как у Брукса и Гельмана (о чем вы говорите выше). Уравнение 1.1 в Бруксе и Гельмане - именно то, что я записал (когда вы переставляете некоторые термины).
Greenparker
«Мы можем видеть, что эффект второго и третьего слагаемых незначителен для принятия решений, когда n велико», так что вы говорите, что выражение в BDA и, следовательно, STAN происходит из-за игнорирования этих терминов для большого n?
Greenparker