В группе студентов 2 из 18 левши. Найти апостериорное распределение учеников-левшей в популяции, предполагая неинформативный априорный анализ. Подведите итоги. По данным литературы, 5-20% людей - левши. Примите эту информацию во внимание в вашем предыдущем и вычислите новое заднее.
Я знаю, что бета-дистрибутив должен быть использован здесь. Во-первых, значения и равны 1? Уравнение, которое я нашел в материале для апостериорного
N = 18 ,
Почему это в уравнении? ( обозначает долю левшей). Это неизвестно, так как это может быть в этом уравнении? Мне кажется смешным вычислять данного и использовать это в уравнении, дающем . Ну, с образцом результат составил . я должен вывести из этого?
Уравнение, дающее ожидаемое значение учетом известных и сработало лучше и дало мне что звучит примерно так. Уравнение со значением присвоенным и . Какие значения я должен дать и чтобы учесть предшествующую информацию?
Некоторые советы будут высоко оценены. Общая лекция о предшествующем и последующем распространении также не повредит (у меня есть смутное понимание того, что они, но только расплывчатые). Также имейте в виду, что я не очень продвинутый статистик (на самом деле я политолог по своей основной профессии), поэтому продвинутая математика, вероятно, пролетит над моей головой.
Ответы:
Позвольте мне сначала объяснить, что такое сопряженный предшественник . Затем я объясню байесовский анализ на вашем конкретном примере. Байесовская статистика включает следующие этапы:
Основой всей байесовской статистики является теорема Байеса, которая
В вашем случае вероятность является биномиальной. Если предшествующее и заднее распределение находятся в одной семье, то предшествующее и заднее распределение называются сопряженными . Бета-распределение является сопряженным предшествующим, потому что апостериорное также является бета-распределением. Мы говорим, что бета-распределение является сопряженным семейством для биномиальной вероятности. Сопряженный анализ удобен, но редко встречается в реальных задачах. В большинстве случаев апостериорное распределение должно быть найдено численно через MCMC (с использованием Stan, WinBUGS, OpenBUGS, JAGS, PyMC или какой-либо другой программы).
Если предыдущее распределение вероятностей не интегрируется с 1, оно называется неправильным априорным, если оно интегрируется с 1, оно называется надлежащим априорным. В большинстве случаев неправильный априор не представляет серьезной проблемы для байесовского анализа. Заднее распределение должно быть правильным, то есть заднее должно объединяться в 1.
Эти практические правила прямо следуют из природы процедуры байесовского анализа:
В этом посте можно найти отличный обзор некоторых возможных «информативных» и «неинформативных» априоров для бета-дистрибутива .
Допустим, ваша предыдущая бета-версия где - это доля левшей. Чтобы указать предыдущие параметры и , полезно знать среднее значение и дисперсию бета-распределения (например, если вы хотите, чтобы у вашего ранее было определенное среднее значение и дисперсия). Среднее значение равно . Таким образом, всякий раз, когда , среднее значение равно . Дисперсия бета-распределения: . Теперь удобно то, что вы можете думать о иBeta(πLH|α,β) πLH α β π¯LH=α/(α+β) α=β 0.5 αβ(α+β)2(α+β+1) α β как уже наблюдалось (псевдо-) данные, а именно -левши и -правши из (псевдо-) выборки размера . Распределение является равномерным (все значения одинаково вероятны) и является эквивалентом наблюдения двух человек из из которых один левша и один правша.α β neq=α+β Beta(πLH|α=1,β=1) πLH
Задним бета-распределением является просто где - размер выборки, а - количество левшей в выборке. Следовательно, заднее среднее значение равно . Таким образом, чтобы найти параметры апостериорного распределения бета, мы просто добавляем левшей к и правшей к . Задняя дисперсияBeta(z+α,N−z+β) N z πLH (z+α)/(N+α+β) z α N−z β (z+α)(N−z+β)(N+α+β)2(N+α+β+1) , Обратите внимание, что высокоинформативный априор также приводит к меньшей дисперсии апостериорного распределения (графики ниже хорошо иллюстрируют эту точку).
В вашем случае и а ваш предшествующий является униформой, которая неинформативна, поэтому . Следовательно, ваше последующее распределение - . Заднее среднее значение . Вот график, который показывает априорность, вероятность данных и апостериорz=2 N=18 α=β=1 Beta(3,17) π¯LH=3/(3+17)=0.15
Вы видите, что, поскольку ваше предыдущее распространение неинформативно, ваше последующее распространение полностью зависит от данных. Также нанесен интервал наибольшей плотности (ИЧР) для апостериорного распределения. Представьте, что вы помещаете свое заднее распределение в 2D-бассейн и начинаете заполнять водой, пока 95% распределения не окажется выше ватерлинии. Точки, где ватерлиния пересекается с задним распределением, составляют 95% -HDI. Каждая точка внутри ИЧР имеет более высокую вероятность, чем любая точка за ее пределами. Кроме того, ИЧР всегда включает в себя пик апостериорного распределения (то есть моды). ИЧР отличается от равноправного 95% вероятного интервала, где исключается 2,5% от каждого хвоста сзади (см. Здесь ).
Для вашего второго задания вас попросят включить информацию о том, что 5-20% населения являются левшами. Есть несколько способов сделать это. Самый простой способ - сказать, что предыдущее бета-распределение должно иметь среднее значение есть среднее значение и . Но как выбрать и предыдущего дистрибутива? Во-первых, вы хотите, чтобы среднее значение предыдущего распределения составляло для эквивалентного размера выборки . В более общем смысле, если вы хотите, чтобы у вашего предшествующего значения было среднее значение с размером , соответствующий0.125 0.05 0.2 α β 0.125 neq m neq α и значения : и . Все, что вам осталось сделать сейчас, это выбрать размер который определяет, насколько вы уверены в своей предыдущей информации. Допустим, вы абсолютно уверены в своей предварительной информации и установите . Параметры вашего предыдущего дистрибутива: и . Апостериорное распределение равно со средним значением около что практически совпадает с предыдущим средним значениемβ α=mneq β=(1−m)neq neq neq=1000 α=0.125⋅1000=125 β=(1−0.125)⋅1000=875 Beta(127,891) 0.125 0.125 , Предыдущая информация доминирует над задним (см. Следующий график):
Если вы менее уверены в предшествующей информации, вы можете установить вашего псевдосэмпла, скажем, , что дает и для вашего предыдущего бета-распределения. Апостериорное распределение со средним значением около . Заднее среднее теперь близко к среднему значению ваших данных ( ), потому что данные превосходят предыдущие. Вот график, показывающий ситуацию:neq 10 α=1.25 β=8.75 Beta(3.25,24.75) 0.116 0.111
Более продвинутый метод включения предыдущей информации состоит в том, чтобы сказать, что квантиль вашего предыдущего бета-распределения должен составлять около а квантиль - около . Это равносильно тому, что вы на 95% уверены, что доля левшей в популяции составляет от 5 до 20%. Функция в пакете R вычисляет соответствующие значения и для бета-распределения, соответствующего таким квантилям. Код0.025 0.05 0.975 0.2 α β
beta.select
LearnBayes
Похоже, что бета-распределение с параметрами и обладает желаемыми свойствами. Предыдущее среднее значение составляет что близко к среднему значению ваших данных ( ). Опять же, это предварительное распределение включает в себя информацию о с эквивалентным размером выборки, примерно . Апостериорное распределение - это со средним значением что сопоставимо со средним значением предыдущего анализа с использованием высокоинформативного предыдущего. Вот соответствующий график:α=7.61 β=59.13 7.61/(7.61+59.13)≈0.114 0.111 neq≈7.61+59.13≈66.74 Beta(9.61,75.13) 0.113 Beta(125,875)
Смотрите также эту ссылку для краткого, но имхо хорошего обзора байесовских рассуждений и простого анализа. Более длинное введение для конъюгатного анализа, особенно для биномиальных данных, можно найти здесь . Общее введение в байесовское мышление можно найти здесь . Больше слайдов, касающихся аспектов статистики Байса, здесь .
источник
Бета-распределение с = 1 и = 1 совпадает с равномерным распределением. Так что это на самом деле, униформа. Вы пытаетесь найти информацию о параметре распределения (в данном случае, процент левшей в группе людей). Формула Байеса гласит:βα β
который вы указали, пропорционален:
α ( Y 1 , . . . , П | г ) *P(r|Y1,...,n) ∝ (Y1,...,n|r)∗P(r)
Таким образом, в основном вы начинаете с вашего прежнего убеждения о доле левшей в группе (P (r), для которой вы используете унифицированную дистанцию), а затем рассматриваете данные, которые вы собираете, чтобы проинформировать своего предыдущего (биномиальное в этом случае. либо вы правша или левша, поэтому ). Биномиальное распределение имеет бета-сопряженный априор, что означает, что апостериорное распределениеР ( г | Y 1 , . . . ПP(Y1,...,n|r) αP(r|Y1,...n) распределение параметров после рассмотрения данных относится к тому же семейству, что и предыдущие. г здесь не неизвестно в конце концов. (и, честно говоря, это было до сбора данных. У нас есть довольно хорошее представление о доле левшей в обществе.) Вы получили как предыдущее распределение (ваше предположение о r), так и вы собрали данные и сложите их вместе. Позади - ваше новое предположение о распределении левшей после рассмотрения данных. Таким образом, вы берете вероятность данных и умножаете их на форму. Ожидаемое значение бета-дистрибутива (а именно это и есть постер) равно . Итак, когда вы начали, ваше предположение с = 1 и ααα+β α 1β = 1 было то, что доля левшей в мире была . Теперь вы собрали данные, у которых 2 левши из 18. Вы вычислили апостериор. (все еще бета) Ваши значения и теперь отличаются, что меняет ваше представление о соотношении левшей и правшей. как это изменилось? αβ12 α β
источник
В первой части вашего вопроса вам предлагается определить подходящий априор для "r". С биномиальными данными было бы разумно выбрать бета-дистрибутив. Потому что тогда апостериор будет бета. Равномерное распределение, являющееся частным случаем бета-версии, вы можете предварительно выбрать для «r» Равномерное распределение, позволяющее каждому возможному значению «r» быть равноправным
Во второй части вы предоставили информацию о предыдущем распространении «р».
С этим в ответе @ COOLSerdash даст вам правильные указания.
Спасибо за публикацию этого вопроса и COOLSerdash за правильный ответ.
источник