Стан

Я просматривал документацию Стэна, которую можно скачать отсюда . Я был особенно заинтересован в их реализации диагностики Гельмана-Рубина. Оригинальная статья Gelman & Rubin (1992) определяет потенциальный коэффициент уменьшения масштаба (PSRF) следующим образом:

Пусть быть й пробы цепь Маркова, и пусть будет в целом независимые цепи выборочные. Пусть будет средним из й цепочки, а будет общим средним. Определить, $X_{i,1}, \dots , X_{i,N}$ $i$ $M$ $\bar{X}_{i\cdot}$ $i$ $\bar{X}_{\cdot \cdot}$ где

W = \frac{1}{M} \sum_{m = 1}^{M} s_{m}^{2},

$W = \dfrac{1}{M} \sum_{m=1}^{M} {s^2_m},$

И определить

s_{m}^{2} = \frac{1}{N - 1} \sum_{t = 1}^{N} ({\bar{X}}_{m t} - {\bar{X}}_{m \cdot})^{2} .

$s^2_m = \dfrac{1}{N-1} \sum_{t=1}^{N} (\bar{X}_{m t} - \bar{X}_{m \cdot})^2\,.$

B

$B$

B = \frac{N}{M - 1} \sum_{m = 1}^{M} ({\bar{X}}_{m \cdot} - {\bar{X}}_{\cdot \cdot})^{2} .

$B = \dfrac{N}{M-1} \sum_{m=1}^{M} (\bar{X}_{m \cdot} - \bar{X}_{\cdot \cdot})^2 \,.$

Определим PSRF оценивается с

\hat{V} = (\frac{N - 1}{N}) W + (\frac{M + 1}{M N}) B .

$\hat{V} = \left(\dfrac{N-1}{N} \right)W + \left( \dfrac{M+1}{MN} \right)B\,.$

, где

\sqrt{\hat{R}}

$\sqrt{\hat{R}}$

Где

\hat{R} = \frac{\hat{V}}{W} \cdot \frac{d f + 3}{d f + 1},

$\hat{R} = \dfrac{\hat{V}}{W} \cdot \dfrac{df+3}{df+1}\,,$

d f = 2 \hat{V} / V a r (\hat{V})

$df = 2\hat{V}/Var(\hat{V})$

Документация Stan на стр. 349 игнорирует термин с а также удаляет мультипликативный термин Это их формула, $df$ $(M+1)/M$

${\hat{var}}^{+} (θ | y) = \frac{N - 1}{N} W + \frac{1}{N} B .$ $\widehat{\text{var}}^{+}(\theta \, | \, y) = \frac{N-1}{N} W + \frac{1}{N} B\,.$ $\hat{R} = \sqrt{\frac{{\hat{var}}^{+} (θ | y)}{W}} .$ $\hat{R} = \sqrt{\frac{\widehat{\text{var}}^{+}(\theta \, | \, y) }{W}}\,.$

$M$ $2$ $(M+1)/M$ $df$

Так откуда эта формула?

РЕДАКТИРОВАТЬ: Я нашел частичный ответ на вопрос « откуда взялась эта формула? », В том, что книга Байесовского анализа данных Гельмана, Карлина, Стерна и Рубина (второе издание) имеет точно такую же формулу. Однако в книге не объясняется, как / почему оправданно игнорировать эти термины?

mcmc convergence gibbs metropolis-hastings stan Greenparker
источник

Пока еще нет опубликованной статьи, и формула, вероятно, изменится в ближайшие несколько месяцев.

Бен Гудрич

@BenGoodrich Спасибо за комментарий. Можете ли вы сказать что-нибудь еще о мотивации использования этой формулы? И почему именно изменится формула?

Greenparker,

Нынешняя формула R-шляпы с разделением - это то, как она в основном применяется для случая, когда существует только одна цепочка. Предстоящие изменения в основном связаны с тем фактом, что лежащее в основе маргинальное заднее распределение может быть ненормальным или иметь среднее значение и / или дисперсию.

Бен Гудрич

M = 2

$M = 2$

(M + 1) / M = 3 / 2

$(M+1)/M = 3/2$

Ответы:

\hat{σ} = \frac{n - 1}{n} W + \frac{1}{n} B

$\hat{\sigma} = \frac{n-1}{n}W+ \frac{1}{n}B$

\hat{σ}

$\hat{\sigma}$

{\hat{σ}}_{+}

$\hat{\sigma}_+$

{\hat{v a r}}^{+}

$\widehat{\rm var}^+$

\hat{R} = \frac{m + 1}{m} \frac{{\hat{σ}}_{+}}{W} - \frac{n - 1}{m n},

$\hat{R} = \frac{m+1}{m}\frac{\hat{\sigma}_+}{W} - \frac{n-1}{mn},$

\hat{R} = \frac{{\hat{σ}}_{+}}{W} + \frac{{\hat{σ}}_{+}}{W m} - \frac{n - 1}{m n} .

$\hat{R} = \frac{\hat{\sigma}_+}{W} + \frac{\hat{\sigma}_+}{Wm}- \frac{n-1}{mn}.$

n

$n$

Gelman & Rubin (1992) также имели термин с df как df / (df-2). Brooks & Gelman (1998) имеют раздел, описывающий, почему это исправление df является неправильным, и определяют (df + 3) / (df + 1). Параграф перед разделом 3.1 в Brooks & Gelman (1998) объясняет, почему (d + 3) / (d + 1) можно отбросить.

$\frac{\hat{\sigma}_+}{Wm}- \frac{n-1}{mn}$

$\hat{R}$ $n$ $m$

Обычно М не слишком велико, и часто может быть столь же низким, как 2

$\hat{R}$

Дополнительная ссылка:

Брукс и Гельман (1998). Журнал вычислительной и графической статистики, 7 (4) 434-455.

Аки Вехтари
источник

{\hat{σ}}^{2}

$\hat{\sigma}^2$ как вы упоминаете, но их

\hat{R}

$\hat{R}$ статистика

({\hat{σ}}^{2} + B / m n) / W * d f_{t e r m}

$(\hat{\sigma}^2 + B/mn)/W * df_{term}$ (посмотрите на уравнение в верхней части страницы 495 в официальной версии Stat Science), которое представляет

(m + 1) / m

$(m+1)/m$ термин, о котором я говорил. Кроме того, посмотрите код и описание в коде пакета R, в котором диагностика GR проводится с 1999 года.

Greenparker

Я не совсем понимаю. Статья по предоставленной вами ссылке и статья с веб-страниц Stat Science содержат только страницы 457-472. Я не проверял сейчас, но много лет назад и в прошлом году, когда я проверял код, у нее не было текущей рекомендованной версии.

Аки Вехтари

Обратите внимание, что я отредактировал свой ответ. В Gelman & Brooks (1998) этот термин (m + 1) / m определен более четко, и кажется, что вы пропустили последний термин, который в основном отменяет действие термина (m + 1) / m для принятия решения. Смотрите этот абзац перед разделом 3.1.

Аки Вехтари

Извините за это, это была опечатка. Это страница 465, и у Гельмана и Рубина такое же точное определение, как у Брукса и Гельмана (о чем вы говорите выше). Уравнение 1.1 в Бруксе и Гельмане - именно то, что я записал (когда вы переставляете некоторые термины).

Greenparker

«Мы можем видеть, что эффект второго и третьего слагаемых незначителен для принятия решений, когда n велико», так что вы говорите, что выражение в BDA и, следовательно, STAN происходит из-за игнорирования этих терминов для большого n?

Greenparker