Байесовская книга Крушке гласит, что использование бета-дистрибутива для подбрасывания монеты
Например, если у нас нет никаких предварительных знаний, кроме знания о том, что у монеты есть сторона головы и сторона хвоста, это равносильно тому, что ранее наблюдались одна голова и один хвост, что соответствует a = 1 и b = 1.
Почему никакая информация не была бы равносильна тому, что я видел одну голову и один хвост - 0 голов и 0 хвостов мне кажется более естественным.
probability
bayesian
beta-distribution
Хатшепсут
источник
источник
Ответы:
Цитата - это «логическая ловкость рук» (великолепное выражение!), Как отмечает @whuber в комментариях к ОП. Единственное, что мы действительно можем сказать, увидев, что у монеты есть голова и хвост, это то, что оба события «голова» и «хвост» не являются невозможными. Таким образом, мы могли бы отказаться от дискретного априора, который помещает всю массу вероятности в «голову» или «хвост». Но это само по себе не ведет к единому априорному вопросу: вопрос гораздо более тонкий. Давайте прежде всего подведем итоги. Мы рассматриваем бета-биноминальную модель сопряжения для байесовского вывода вероятности головок монеты, учитывая независимых и одинаково распределенных (условно на ) бросков монеты.n θ p ( θ | x ) x nθ N θ p ( θ | x ) когда мы наблюдаем голов в бросках:Икс N
мы можем сказать, что и играют роль «предыдущего числа голов» и «предшествующего числа хвостов» (псевдотриалов), а можно интерпретировать как эффективный размер выборки. Мы могли бы также прийти к этой интерпретации, используя известное выражение для среднего значения в качестве средневзвешенного значения предыдущего среднего значения и выборочного среднего значения .β α + β αα β α + β xαα + β ИксN
Глядя на , мы можем сделать два соображения:p ( θ | x )
Кроме того, поскольку является предыдущим средним значением, и у нас нет предварительных знаний о распределении , мы ожидаем, что . Это аргумент симметрии - если мы не знаем ничего лучше, мы не ожидаем, что априори, что распределение смещено к 0 или к 1. Бета-распределение θμprior=0,5μр г я о г= αα + β θ μр г я о г= 0,5
Это выражение симметрично только вокруг если .α = βθ = 0,5 α = β
По этим двум причинам, независимо от того, какой приоритет (принадлежащий семейству Бета - помните, сопряженная модель!) Мы выбираем для использования, мы интуитивно ожидаем, что и «маленькие». Мы можем видеть, что все три часто используемых неинформативных априора для бета-биномиальной модели разделяют эти черты, но в остальном они совершенно разные. И это очевидно: никакое предшествующее знание, или «максимальное невежество», не является научным определением, поэтому, какой тип априора выражает «максимальное невежество», то есть то, что является неинформативным априором, зависит от того, что вы на самом деле имеете в виду как «максимум» невежество".cα = β= с с
мы могли бы выбрать априор, который говорит, что все значения для равновероятны, так как мы не знаем ничего лучше. Опять же, аргумент симметрии. Это соответствует :α = β = 1θ α = β= 1
для , т. е. единообразного априора, использованного Крушке. Более формально, выписав выражение для дифференциальной энтропии бета-распределения, вы увидите, что оно максимизируется при . Теперь энтропия часто интерпретируется как мера «количества информации», переносимого распределением: более высокая энтропия соответствует меньшему количеству информации. Таким образом, вы можете использовать этот принцип максимальной энтропии, чтобы сказать, что внутри семейства Бета априор, который содержит меньше информации (максимальное невежество), является этим единообразным априором.α = β = 1θ ∈ [ 0 , 1 ] α = β= 1
Вы можете выбрать другую точку зрения, используемую ОП, и сказать, что никакая информация не соответствует отсутствию головы и хвоста, т. Е.
Предшествующее, которое мы получаем таким способом, называется Приоритетом Холдейна . Функция имеет небольшую проблему - интеграл по бесконечен, т. Е. Независимо от того, какая нормирующая постоянная, она не может быть превращается в правильный PDF. На самом деле, априор Холдейна - это правильный pmf , который ставит вероятность 0,5 на , 0,5 на и вероятность 0 на все другие значения для . Однако давайте не будем увлекаться - для непрерывного параметра априорные значения, которые не соответствуют надлежащему pdf, называются неправильными априорными значениями. I = [ 0 , 1 ] θ = 0 θ = 1 θ θθ- 1( 1 - θ )- 1 я= [ 0 , 1 ] θ = 0 θ = 1 θ θ , Поскольку, как отмечалось ранее, все, что имеет значение для байесовского вывода, это заднее распределение, неправильные априорные значения допустимы, если заднее распределение является правильным. В случае с Холдейном мы можем доказать, что задний pdf верен, если наша выборка содержит хотя бы один успех и один провал. Таким образом, мы можем использовать Haldane только тогда, когда мы наблюдаем по крайней мере одну голову и один хвост.
В другом смысле априор Холдейна может считаться неинформативным: среднее значение апостериорного распределения теперь равно , то есть частоту выборки головок, которая является частой оценкой MLE для биномиальной модели задачи подбрасывания монеты. Кроме того, вероятные интервалы для соответствуют доверительным интервалам Вальда. Поскольку методы частых не определяют априор, можно сказать, что априор Холдейна неинформативен или соответствует нулевому априорному знанию, потому что он приводит к «тому же» выводу, который сделал бы частик.α + xα + β+ n= хN θ θ
Наконец, вы можете использовать априор, который не зависит от параметризации задачи, т. Е. Априор Джеффриса, который для бета-биномиальной модели соответствует
таким образом, с эффективным размером выборки 1. Преимущество Джеффриса состоит в том, что он инвариантен при репараметризации пространства параметров. Например, единообразный априор присваивает равные вероятности всем значениям , вероятности возникновения события «голова». Однако вы можете решить параметризовать эту модель в терминах log-odds события "head" вместо . Что такое априор, который выражает «максимальное незнание» в терминах лог-шансов, т. Е. Который говорит, что все возможные лог-шансы для события «голова» равновероятны? Это Холдейн, как показано в этом (немного загадочном) ответеθ λ = л о г( θ1 - θ) θ , Вместо этого Джеффрис инвариантен относительно всех изменений метрики. Джеффрис заявил, что априор, у которого нет этого свойства, в некотором роде информативен, поскольку содержит информацию о метрике, которую вы использовали для параметризации проблемы. Его предшественник не
Подводя итог, можно сказать, что в бета-биномиальной модели не существует однозначного выбора неинформативного априора. То, что вы выбираете, зависит от того, что вы подразумеваете под нулевым предварительным знанием, и от целей вашего анализа.
источник
Это явно неверно. Наблюдение за 1 главой и 1 хвостом означает, что (невозможно получить монету со всеми головами) и (невозможно получить монету со всеми хвостами). Равномерное распределение не соответствует этому. Что соответствует, бета (2,2). Из байесовского решения задачи о подбрасывании монет с помощью Лапласа (т.е. равномерного) до апостериорная вероятность равна .p ( θ = 1 ) = 0 θ p ( θ ) = B e t a ( h + 1 , ( N - h ) + 1 )p ( θ = 0 ) = 0 р ( θ = 1 ) = 0 θ p ( θ ) = B e t a ( h + 1 , ( N- з ) + 1 )
источник