Простые примеры из реальной жизни для обучения байесовской статистике?

10

Я хотел бы найти несколько «реальных примеров» для преподавания байесовской статистики. Байесовская статистика позволяет формально включить предыдущие знания в анализ. Я хотел бы привести студентам несколько простых примеров из реальной жизни, в которых исследователи включили в свой анализ предшествующие знания, чтобы студенты могли лучше понять мотивацию, по которой можно в первую очередь использовать байесовскую статистику.

Известны ли вам какие-либо простые примеры из реальной жизни, такие как оценка среднего значения, пропорции, регрессии и т. Д., Где исследователи официально включают в себя предварительную информацию? Я понимаю, что байесовцы могут использовать «неинформативные» приоры, но меня особенно интересуют реальные примеры, где используются информативные приоры (то есть реальная априорная информация).

bayesian teaching bayes003
источник

Я думаю, что IQ - довольно хороший пример.

Хейзеб

Не совсем ответ, но когда вы подбрасываете монету три раза и голова поднимается два раза, ни один студент не поверит, что эта голова была в два раза чаще, чем хвосты. Это довольно убедительно, хотя, конечно, это не настоящее исследование.

Бернхард

1

Вы можете проверить этот ответ, написанный вашим по-настоящему: stats.stackexchange.com/a/134385/61496

Яир Даон

Возможно, вы объединяете Байесовское правило, которое может быть применено в вероятностной / оценочной статистике, и байесовской статистике, где «вероятность» - это краткое изложение веры?

AdamO

6

Байесовская теория поиска представляет собой интересное в реальном времени приложение байесовской статистики, которая много раз применялась для поиска потерянных судов в море. Для начала карта делится на квадраты. Каждому квадрату присваивается предшествующая вероятность удержания потерянного судна на основе последней известной позиции, курса, пропущенного времени, течений и т. Д. Кроме того, каждому квадрату назначается условная вероятность обнаружения судна, если оно действительно находится в этом квадрате, на основе такие вещи, как глубина воды. Эти распределения объединяются, чтобы расставить приоритеты квадратов карты, которые имеют наибольшую вероятность получения положительного результата - это не обязательно самое вероятное место для корабля, но наиболее вероятное место фактического нахождения корабля.

Ядерный Ван
источник

1

Хорошо, именно такие приложения описаны в развлекательной книге «Теория, которая не умрет»: как правило Байеса взломало код загадки, выследило русские подводные лодки и вышло победоносным из двух вековых споров . Кроме того, Тьюринг использовал подобные рассуждения, чтобы разгадать загадку.

Jpmuc

Вероятностный ли это байесовский?

Андрей

5

Я думаю, что оценка производства или численности населения по серийным номерам интересна, если использовать традиционный пояснительный пример. Здесь вы пытаетесь максимально дискретного равномерного распределения. В зависимости от выбранного вами предварительного значения максимальная вероятность и байесовские оценки будут различаться довольно прозрачно.

Пожалуй, самый известный пример - это оценка скорости производства немецких танков во время второй мировой войны по диапазонам серийных номеров танков и кодам производителей, выполненным в установках для частых исследований (Ruggles and Brodie, 1947). Альтернативный анализ с байесовской точки зрения с информативными априорами был сделан (Дауни, 2013), а с неподходящими неинформативными априорами - (Höhle and Held, 2004). Работа (Höhle and Held, 2004) также содержит намного больше ссылок на предыдущее обращение в литературе, и на этом сайте также обсуждается эта проблема.

Источники:

Глава 3, Дауни, Аллен. Подумайте, Байес: Байесовская статистика в Python. "O'Reilly Media, Inc.", 2013.

Википедия

Ruggles, R .; Brodie, H. (1947). «Эмпирический подход к экономической разведке во Второй мировой войне». Журнал Американской статистической ассоциации. 42 (237): 72.

Хёле, Михаэль и Леонард Хельд. Байесовская оценка численности населения. № 499. Дискуссионный документ // Sonderforschungsbereich 386 der Ludwig-Maximilians-Universität München, 2006.

MachineEpsilon
источник

3

В статистике пространственно -временных данных Кайли и Уикла есть хорошая история о (байесовском) поиске подводной лодки «Скорпион», потерянной в 1968 году. Мы рассказываем эту историю нашим студентам и просим их выполнить ( упрощенно) поиск с использованием симулятора .

Подобные примеры могут быть построены вокруг истории пропавшего полета MH370; Возможно, вы захотите взглянуть на Davey et al., Байесовские методы в поиске MH370 , Springer-Verlag.

Ф. Туселл
источник

1

Вот пример оценки среднего значения из нормальных непрерывных данных. Прежде чем углубиться непосредственно в пример, я хотел бы рассмотреть некоторые математические расчеты для нормальных и нормальных байесовских моделей данных. $\theta$

Рассмотрим случайную выборку из п непрерывные значения , обозначаемые . При этом вектор представляет собой данные , собранные. Вероятностная модель для нормальных данных с известной дисперсией и независимыми и одинаково распределенными (iid) выборками $y_1, ..., y_n$ $y = (y_1, ..., y_n)^T$

y_{1}, . . ., y_{n} | θ \sim N (θ, σ^{2})

$y_1, ..., y_n | \theta \sim N(\theta, \sigma^2)$

Или, как более типично написано байесовским,

y_{1}, . . ., y_{n} | θ \sim N (θ, τ)

$y_1, ..., y_n | \theta \sim N(\theta, \tau)$

где ; известен как точность $\tau = 1 / \sigma^2$ $\tau$

В этих обозначениях плотность для равна $y_i$

f (y_{i} | θ, τ) = \sqrt{(} \frac{τ}{2 π}) \times e x p (- τ (y_{i} - θ)^{2} / 2)

$f(y_i | \theta, \tau) = \sqrt(\frac{\tau}{2 \pi}) \times exp\left( -\tau (y_i - \theta)^2 / 2 \right)$

Классическая статистика (т.е. максимального правдоподобия) дает нам оценку $\hat{\theta} = \bar{y}$

В байесовской перспективе мы добавляем максимальную вероятность с предварительной информацией. Выбор априорных значений для этой нормальной модели данных является еще одним нормальным распределением для . Нормальное распределение сопряжено с нормальным распределением. $\theta$

θ \sim N (a, 1 / b)

$\theta \sim N(a,1/b)$

Апостериорное распределение, которое мы получаем из этой модели данных Normal-Normal (после множества алгебр), является еще одним нормальным распределением.

θ | y \sim N (\frac{b}{b + n τ} a + \frac{n τ}{b + n τ} \bar{y}, \frac{1}{b + n τ})

$\theta | y \sim N(\frac{b}{b + n\tau} a + \frac{n \tau}{b + n \tau} \bar{y}, \frac{1}{b + n\tau})$

$b + n\tau$ $a$ $\bar{y}$ $\frac{b}{b + n\tau} a + \frac{n \tau}{b + n \tau} \bar{y}$

$\theta | y$ $\theta$ $\theta$

Тем не менее, теперь вы можете использовать любой пример учебника с обычными данными, чтобы проиллюстрировать это. Я буду использовать набор данных airqualityв R. Рассмотрим проблему оценки средней скорости ветра (MPH).

> ## New York Air Quality Measurements
> 
> help("airquality")
> 
> ## Estimating average wind speeds
> 
> wind = airquality$Wind
> hist(wind, col = "gray", border = "white", xlab = "Wind Speed (MPH)")
>

> n = length(wind)
> ybar = mean(wind)
> ybar
[1] 9.957516 ## "frequentist" estimate
> tau = 1/sd(wind)
> 
> 
> ## but based on some research, you felt avgerage wind speeds were closer to 12 mph
> ## but probably no greater than 15,
> ## then a potential prior would be N(12, 2)
> 
> a = 12
> b = 2
> 
> ## Your posterior would be N((1/))
> 
> postmean = 1/(1 + n*tau) * a + n*tau/(1 + n*tau) * ybar
> postsd = 1/(1 + n*tau)
> 
> set.seed(123)
> posterior_sample = rnorm(n = 10000, mean = postmean, sd = postsd)
> hist(posterior_sample, col = "gray", border = "white", xlab = "Wind Speed (MPH)")
> abline(v = median(posterior_sample))
> abline(v = ybar, lty = 3)
>

> median(posterior_sample)
[1] 10.00324
> quantile(x = posterior_sample, probs = c(0.025, 0.975)) ## confidence intervals
2.5%     97.5% 
9.958984 10.047404

В этом анализе исследователь (вы) может сказать, что, учитывая данные + предварительную информацию, ваша оценка среднего ветра с использованием 50-го процентиля скорости должна быть 10,00324, что больше, чем просто использование среднего значения из данных. Вы также получаете полный дистрибутив, из которого вы можете извлечь доверительный интервал 95%, используя квантили 2,5 и 97,5.

Ниже я приведу две ссылки, я настоятельно рекомендую прочитать небольшую статью Казеллы. Он специально нацелен на эмпирические байесовские методы, но объясняет общую байесовскую методологию для нормальных моделей.

Ссылки:

Казелла Г. (1985). Введение в эмпирический байесовский анализ данных. Американский статистик, 39 (2), 83-87.
Гельман А. (2004). Байесовский анализ данных (2-е изд., Тексты по статистике). Boca Raton, Fla .: Chapman & Hall / CRC.

Джон
источник

1

Область исследований, где я считаю, что байесовские методы абсолютно необходимы, - это оптимальное проектирование.

$x$ $\beta$ $x$

$x$ $\beta$ $\beta$ $\beta$ $x$

$n = 0$ $\hat \beta$
$\hat \beta$
$\beta = 1$ $\hat \beta = 5$ $x$ $\beta = 5$ $x$
$\beta$

$x$ $x$

$x$ $\beta$

$\beta$ $x$

$x$

Cliff AB
источник

1

В последнее время я размышлял над этим вопросом и думаю, что у меня есть пример, в котором байесовский смысл имеет смысл с использованием предварительной вероятности: отношения вероятности клинического теста.

Примером может служить следующий пример: допустимость опускания мочи в условиях ежедневной практики (Family Practice 2003; 20: 410-2). Идея состоит в том, чтобы увидеть, что положительный результат мочеиспускания влияет на диагностику инфекции мочи. Коэффициент вероятности положительного результата:

L р (+) знак равно \frac{T е s T + | ЧАС +}{T е s T + | ЧАС -} знак равно \frac{S е N s я б я L я T Y}{1 - s п е с я е я с я T Y}

$LR(+) = \frac{test+|H+}{test+|H-} = \frac{Sensibility}{1-specificity}$

H +

$H+$

H -

$H-$

О р (+ | T е s T +) знак равно L р (+) \times О р (+)

$OR(+|test+) = LR(+) \times OR(+)$

O R

$OR$

O R (+ | t e s t +)

$OR(+|test+)$

O R (+)

$OR(+)$

$LR(+) = 12.2$ $LR(-) = 0.29$

$p_{+} = 2/3$ $p_{+|test+} = 0.96$ $p_{+|test-} = 0.37$

Здесь тест полезен для выявления инфекции, но не настолько хорош, чтобы отказаться от инфекции.

Денис
источник

Простые примеры из реальной жизни для обучения байесовской статистике?

Ответы: