Гентлеровский подход к байесовской статистике

Недавно я начал читать «Введение в байесовскую статистику», 2-е издание, Bolstad. У меня был вводный класс статистики, который охватывал в основном статистические тесты, и я почти прошел класс регрессионного анализа. Какие еще книги я могу использовать, чтобы дополнить мое понимание этой?

Я прошел через первые 100-125 страниц. После этого книга начинает рассказывать о проверке гипотез, о чем я очень рад рассказать, но меня бросает несколько вещей:

Использование функций плотности вероятности в расчетах. Другими словами, как оценить такие уравнения.
Это целое предложение: «Предположим, что мы используем бета (1,1) перед числом pi. Затем, если y = 8, апостериорная плотность равна бета (9,3). Апостериорная вероятность нулевой гипотезы равна ...» Я полагаю бета (1,1) относится к PDF, где среднее значение равно 1, а стандартное значение равно 1? Я не понимаю, как это изменится на бета (9,3) как функция задней плотности.

Я понимаю концепцию приоры и постеры и понимаю, как их применять вручную, используя таблицу. Я понимаю (я думаю!), Что пи представляет предполагаемую долю населения или вероятность.

Я не понимаю, как связать это с данными, с которыми я сталкивался бы ежедневно и получал результаты.

hypothesis-testing bayesian Джастин Бозонье
источник

Параметр появляется из контекста как вероятность популяции биномиальной модели. В этом случае бета-распределение является сопряженным априором для биномиальной вероятности с известным и неизвестным . Однако параметры бета-распределения не являются средним значением и стандартным отклонением, как в случае нормального распределения. Посмотрите на страницу Википедии, чтобы увидеть формулу среднего значения и дисперсии бета-случайной величины в терминах параметров бета-распределения.

π

$\pi$

n

$n$

π

$\pi$

Caburke

Спасибо! Conjugate prior - еще один термин, который мне не знаком. Где я могу узнать больше об этом на вводном уровне?

Джастин Бозонье

Возможно, вас заинтересует более практичный текст, вы видели байесовские методы для хакеров? (Раскрытие - я участвующий автор) Попробуйте поискать его (это с открытым исходным кодом и бесплатно).

Cam.Davidson.Pilon

@JustinBozonier Эта ссылка stats.stackexchange.com/questions/66018/… дает некоторые пояснения к различным терминам, которые люди используют для описания приоров, включая сопряженные приоры.

Sycorax сообщает восстановить Monica

@ Cam.Davidson.Pilon Спасибо за это! Обновление верований в таблицах на этой странице помогает мне понять, что говорят другие, отвечающие: nbviewer.ipython.org/urls/raw.github.com/CamDavidsonPilon/…

Джастин Бозонье,

Ответы:

Использование функций плотности вероятности в расчетах. Другими словами, как оценить такие уравнения.

Я думаю, что вы все еще думаете об этом с частой точки зрения: если вы ищете точную оценку, апостериор не даст ее вам. Вы вставляете PDF-файлы, вы получаете PDF-файлы. Вы можете получить точечные оценки, рассчитав статистику на основе вашего апостериорного распределения, но я вернусь к этому чуть позже.

Я понимаю концепцию приоры и постеры и понимаю, как их применять вручную, используя таблицу. Я понимаю (я думаю!), Что пи представляет предполагаемую долю населения или вероятность.

$\pi(x)$ - это то же самое, что и : оба файла PDF. просто традиционно используется для обозначения того, что конкретный PDF имеет предшествующую плотность. $p(x)$ $\pi$

Я подозреваю, что вы не получаете приоры и постеры так же хорошо, как вы думаете, поэтому давайте вернемся к фундаментальной основе байесовской статистики: субъективной вероятности .

Мысленный эксперимент в субъективной вероятности

Допустим, я дарю вам монету и спрашиваю, считаете ли вы эту монету справедливой монетой. Вы слышали, что многие люди говорят о нечестных монетах в классе вероятности, но вы никогда не видели их в реальной жизни, поэтому вы отвечаете: «Да, конечно, я думаю, что это справедливая монета». Но тот факт, что я даже задаю вам этот вопрос, немного отталкивает вас, поэтому, хотя вы считаете, что это справедливо, вы бы не удивились, если бы это было не так. Гораздо менее удивлен, чем если бы вы нашли эту монету в кармане (потому что вы предполагаете, что это вся настоящая валюта, и вы не доверяете мне прямо сейчас, потому что я веду себя подозрительно).

Теперь мы проводим несколько экспериментов. После 100 бросков монета возвращает 53 головы. Вы намного увереннее в том, что это справедливая монета, но вы все еще открыты для вероятности того, что это не так. Разница в том, что теперь вы были бы очень удивлены, если бы эта монета имела какой-то уклон.

Как мы можем представить здесь ваши предыдущие и последующие убеждения, в частности, относительно вероятности того, что монета покажет головы (которые мы будем обозначать )? В частой обстановке ваше предыдущее убеждение - ваша нулевая гипотеза - это то, что . После запуска эксперимента вы не можете отклонить нулевое значение, и поэтому вы продолжаете полагать, что да, монета, вероятно, справедлива. Но как мы можем объяснить изменение вашей уверенности в том, что монета справедлива? После эксперимента вы находитесь в положении, в котором вы могли бы поспорить, что монета справедлива, но перед экспериментом вы были бы трепетными. $\theta$ $\theta = 0.5$

В байесовской системе вы выражаете свою уверенность в предложениях, рассматривая вероятности не как скалярные значения, а как случайные переменные, то есть функции. Вместо того, чтобы говорить мы говорим и тем самым заключаем в себе нашу уверенность в дисперсии PDF. Если мы устанавливаем высокую дисперсию, мы говорим: «Я думаю, что вероятность равна 0,5, но я не удивлюсь, если вероятность, которую я на самом деле наблюдаю в мире, далека от этого значения. Я думаю, что но, честно говоря, я не совсем уверен ". Устанавливая низкую дисперсию, мы говорим: «Я не только полагаю, что вероятность равна 0,5, но я был бы очень удивлен, если эксперименты дают значение, которое не очень близко к $\theta = 0.5$ $\theta \sim N(0.5, \sigma^2)$ $\theta= 0.5$ $\theta=0.5$ «Итак, в этом примере, когда вы начинаете эксперимент, у вас есть априор с высокой дисперсией. После получения данных, подтверждающих ваш априор, среднее значение априора осталось прежним, но дисперсия стала намного уже. Наша уверенность в том, что намного выше после запуска эксперимента, чем раньше. $\theta=0.5$

Итак, как мы выполняем расчеты?

Мы начинаем с PDF-файлов и заканчиваем PDF-файлами. Когда вам нужно сообщить точечную оценку, вы можете рассчитать статистику, такую как среднее значение, медиана или способ вашего апостериорного распределения (в зависимости от вашей функции потерь, в которую я не буду сейчас вдаваться. Давайте просто придерживаться среднего). Если у вас есть закрытое решение для вашего PDF, определить эти значения будет тривиально. Если апостериор сложный, вы можете использовать такие процедуры, как MCMC, для выборки из апостериорного и получения статистики из выборки, которую вы нарисовали.

В примере, где у вас есть бета-версия и биноминальная вероятность, вычисление апостериора сводится к очень чистому вычислению. Данный:

До: $\theta \sim Beta(\alpha, \beta)$
Вероятность: $X|\theta \sim Binomial(\theta)$

Тогда задний сводится к:

Пост: $\theta|X \sim Beta(\alpha + \sum_{i=1}^n x_i,\, \beta + n - \sum_{i=1}^n x_i)$

Это произойдет всякий раз, когда у вас есть предварительная бета-версия и биноминальная вероятность, и причина этого должна быть очевидна в расчетах, предоставленных DJE . Когда конкретная модель априорного вероятности всегда дает апостериор, который имеет тот же тип распределения, что и предыдущий, взаимосвязь между типами распределений, использованных для априора и вероятности, называется сопряженной . Существует много пар распределений, которые имеют сопряженные отношения, и байесианцы очень часто используют сопряженность для упрощения вычислений. Учитывая определенную вероятность, вы можете сделать свою жизнь намного проще, выбрав сопряженный предшествующий (если он существует, и вы можете обосновать свой выбор предшествующего).

Я считаю, что бета (1,1) относится к PDF, где среднее значение равно 1, а стандартное равенство равно 1?

В общей параметризации нормального распределения два параметра обозначают среднее и стандартное отклонение распределения. Но это только то, как мы параметризуем нормальное распределение. Другие распределения вероятностей параметризованы очень по-разному.

Бета-распределение обычно параметризуется как где и называются параметрами "shape". Бета-версия чрезвычайно гибкая и принимает множество различных форм в зависимости от того, как установлены эти параметры. Чтобы проиллюстрировать, насколько эта параметризация отличается от вашего исходного предположения, вот как вы вычисляете среднее значение и дисперсию для бета-случайных переменных: $Beta(\alpha, \beta)$ $\alpha$ $\beta$

\begin{aligned} X & \sim B e t a (α, β) \\ E [X] & = \frac{α}{α + β} \\ var [X] & = \frac{α β}{(α + β)^{2} (α + β + 1)} \end{aligned}

$\begin{equation} \begin{split} X &\sim Beta(\alpha, \beta) \\ \operatorname{E}[X] &= \frac{\alpha}{\alpha + \beta} \\ \operatorname{var}[X] &= \frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)} \end{split} \end{equation}$

Как можно ясно видеть, среднее значение и дисперсия не являются частью параметризации этого распределения, но они имеют решения в замкнутой форме, которые являются простыми функциями входных параметров.

Я не буду подробно описывать различия в параметризации других хорошо известных дистрибутивов, но я рекомендую вам взглянуть на некоторые из них. Любой основной текст, даже Википедия , должен несколько описывать, как изменение параметров изменяет распределение. Вам также следует ознакомиться с отношениями между различными распределениями (например, - это то же самое, что ). $Beta(1,1)$ $Uniform(0,1)$

Дэвид Маркс
источник

Ключевым моментом, который дал мне ваш ответ, было осознание того, что в поисках единственной ценности я был одержим. Однажды я начал думать с точки зрения распределения текста на Крушке, и все остальное стало гораздо более понятным. Спасибо!

Джастин Бозонье

Бета - распределение имеет вид . Бета-версия (1,1) имеет параметры . (К сожалению, такого рода статистические сокращения накладывают на читателя бремя, чтобы узнать, как конкретизируется конкретная модель!) $p(\theta)=\frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}\theta^{\alpha-1}(1-\theta)^{\beta-1}$ $(\alpha, \beta)=(1,1)$

Бета-версия с биномиальной вероятностью (фиксированное число испытаний с бинарными исходами и фиксированными вероятностями успеха / неудачи) обладает свойством сопряженности, что позволяет заднему (произведение априора и вероятности) записываться в закрытой форме:

\begin{aligned} p (θ | y) & = \frac{p (y | θ) p (θ)}{p (y)} \\ \propto \frac{Γ (α) Γ (β)}{Γ (α + β)} θ^{α - 1} (1 - θ)^{β - 1} * (\binom{n}{y}) θ^{y} (1 - θ)^{n - y} \\ \propto θ^{α - 1} (1 - θ)^{β - 1} * θ^{y} (1 - θ)^{n - y} \\ \propto θ^{α + y - 1} (1 - θ)^{β + n - y - 1} \\ = \frac{Γ (α + y - 1) Γ (β + n - y - 1)}{Γ (α + β + n - 1)} θ^{α + y - 1} (1 - θ)^{β + n - y - 1} \end{aligned}

$\begin{equation} \begin{split} p(\theta|y) &= \frac{p(y|\theta)p(\theta)}{p(y)} \\ ~\\ ~\\ &\propto\frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}\theta^{\alpha-1}(1-\theta)^{\beta-1}*\binom{n}{y}\theta^y(1-\theta)^{n-y} \\ ~\\ ~\\ &\propto\theta^{\alpha-1}(1-\theta)^{\beta-1}*\theta^y(1-\theta)^{n-y} \\ ~\\ &\propto\theta^{\alpha+y-1}(1-\theta)^{\beta+n-y-1} \\ ~\\ &=\frac{\Gamma(\alpha+y-1)\Gamma(\beta+n-y-1)}{\Gamma(\alpha+\beta+n-1)}\theta^{\alpha+y-1}(1-\theta)^{\beta+n-y-1} \end{split} \end{equation}$

Для конкретного примера в тексте автор указывает, что бета (1,1) до с данными n = 10 и y = 8 производит бета (1 + 8,1 + 2) = бета (9,3) апостериор распределение по . $\theta$

Это выражение в закрытой форме удобно, но ни в коем случае не обязательно. Умножение плотности вероятности может быть сделано так же, как умножение других математических выражений; трудности возникают из-за того, что многие произведения плотностей не так легко переписать, как бета-предпоследняя / биномиальная вероятность. К счастью, именно здесь компьютеры справляются с трудностями.

Sycorax говорит восстановить Монику
источник

Если вы ищете более мягкий подход, я настоятельно рекомендую книгу Крушке, в которой для объяснения основных понятий используется R. Это очень практичный и практический подход к изучению байесовской статистики, и на его веб-сайте вы можете найти все используемые коды.

Кто-то также порекомендовал мне текст Cam.Davidson.Pilon, пока не смотрел его, но его можно найти здесь .

horseoftheyear
источник

Благодарность! На самом деле я уже владею книгой о Крушке и просто вернулся, чтобы просмотреть ее, и понял, что это именно то, что мне сейчас нужно. Спасибо за указатель!

Джастин Бозонье

@JustinBozonier Я также очень рекомендую Введение в теорию статистики (настроение) . Это обеспечивает относительно высокий уровень строгости, но предполагает, что вы знаете очень базовое исчисление.

Стив П.