Есть ли примеры, когда байесовские достоверные интервалы явно уступают частым доверительным интервалам?

81

Недавний вопрос о разнице между доверием и достоверными интервалами заставил меня начать перечитывать статью Эдвина Джейнса на эту тему:

Jaynes, ET, 1976. «Доверительные интервалы против байесовских интервалов», в Основах теории вероятностей, статистического вывода и статистических теорий науки, WL Harper и CA Hooker (eds.), D. Reidel, Dordrecht, p. 175; ( pdf )

В аннотации Джейнс пишет:

... мы показываем байесовские и ортодоксальные решения шести общих статистических проблем, включающих доверительные интервалы (включая тесты значимости, основанные на том же рассуждении). В любом случае мы обнаруживаем, что ситуация совершенно противоположная, то есть байесовский метод легче применять и дает такие же или лучшие результаты. Действительно, ортодоксальные результаты являются удовлетворительными только тогда, когда они близко (или точно) согласуются с байесовскими результатами. Противоположного примера пока не было.

(акцент мой)

Статья была опубликована в 1976 году, поэтому, возможно, все пошло дальше. Мой вопрос заключается в том, есть ли примеры, когда доверительный интервал между частями явно превосходит байесовский достоверный интервал (согласно задаче, неявно поставленной Джейнсом)?

Примеры, основанные на неправильных предыдущих предположениях, неприемлемы, поскольку они ничего не говорят о внутренней согласованности различных подходов.

Дикран Сумчатый
источник
21
При довольно мягких допущениях, (а) байесовские процедуры оценки являются допустимыми и (б) все или почти все допустимые оценки являются байесовскими по отношению к некоторым априорным показателям. Таким образом, неудивительно, что байесовский доверительный интервал «дает такие же или лучшие результаты». Обратите внимание, что мои утверждения (а) и (б) являются частью частого анализа рациональной теории принятия решений. Там, где частички расстаются с байесовцами, дело не в математике или даже в статистических процедурах, а в значении, обосновании и правильном использовании априора для какой-либо конкретной проблемы.
whuber
1
Итак, подразумевает ли приведенный выше комментарий, что ответ на вопрос ФП: «Такие примеры не могут быть построены»? Или, может быть, существует какой-то патологический пример, который нарушает предположения о допустимости?
1
@Srikant: Хороший вопрос. Я думаю, что местом, где следует начать расследование, является ситуация, когда существуют допустимые оценки, не являющиеся байесовскими, - не обязательно «патологические», но по крайней мере те, которые дают некоторую возможность найти «противоположный пример».
whuber
2
Я хотел бы внести некоторую ясность в «неправильные предварительные предположения ...», заявив, что в байесовском ответе и ответе на частые вопросы должна использоваться одна и та же информация , иначе вы просто сравниваете ответы на два разных вопроса. Тем не менее, отличный вопрос (+1 от меня)
вероятностная
3
патология или нет, это, вероятно, будет первым в своем роде. Я очень заинтересован в том, чтобы увидеть этот пример, потому что эти «патологии» обычно имеют хороший элемент обучения
вероятностная

Ответы:

52

Я сказал ранее, что я хотел бы ответить на вопрос, так что здесь идет ...

Джейнс был немного непослушным в своей работе в том смысле, что доверительный интервал часто не определяется как интервал, в котором можно ожидать, что истинное значение статистики будет лежать с высокой (заданной) вероятностью, поэтому неудивительно, что противоречия возникают, если они интерпретируются, как если бы они были. Проблема заключается в том, что именно так часто используются доверительные интервалы на практике, поскольку интервал, который с большой вероятностью будет содержать истинное значение (учитывая то, что мы можем вывести из нашей выборки данных), - это то, что мы часто хотим.

Ключевой вопрос для меня заключается в том, что когда задается вопрос, лучше всего иметь прямой ответ на этот вопрос. Являются ли достоверные байесовские интервалы хуже, чем частые доверительные интервалы, зависит от того, какой вопрос на самом деле задавался. Если заданный вопрос был:

(a) «Дайте мне интервал, в котором истинное значение статистики лежит с вероятностью p», тогда кажется, что частый человек не может на самом деле ответить на этот вопрос напрямую (и это приводит к типу проблем, которые Джейнс обсуждает в своей статье), но Байесовская банка, поэтому байесовский достоверный интервал превосходит частый доверительный интервал в примерах, приведенных Джейнсом. Но это только потому, что это «неправильный вопрос» для частых.

(б) «Дайте мне интервал, в котором, если бы эксперимент повторялся большое количество раз, истинное значение статистики лежало бы в пределах p * 100% таких интервалов», тогда ответ на частый вопрос - именно то, что вам нужно. Байесовский также может быть в состоянии дать прямой ответ на этот вопрос (хотя это может быть не просто очевидный достоверный интервал). Комментарий Уубер по этому вопросу предполагает, что это так.

По сути, это вопрос правильного определения вопроса и правильной интерпретации ответа. Если вы хотите задать вопрос (а), то используйте байесовский достоверный интервал, если вы хотите задать вопрос (б), то используйте доверительный интервал для частых.

Дикран Сумчатый
источник
2
Хорошо сказано, особенно о том, на какой вопрос КИ на самом деле отвечает. Однако в статье Джейнса он упоминает, что КИ (и наиболее частые процедуры) разработаны так, чтобы хорошо работать «в долгосрочной перспективе» (например, как часто вы видите или «для больших n распределение примерно равно»). .. "предположения в частых методах?), но есть много таких процедур, которые могут сделать это. Я думаю, что именно здесь часто используются методы, основанные на частоте (последовательность, систематическая ошибка, конвергенция и т. Д.), Для оценки различных байесовских процедур, между которыми трудно принять решение. n
вероятностная
1
«Джейнс был немного непослушным в своей статье ...» Я думаю, что точка зрения, которую Джейнс пытался подчеркнуть (или точка зрения, которую я извлек из нее), заключается в том, что доверительные интервалы используются для ответа на вопрос а) в большом количестве случаи (я бы предположил, что любой, кто имеет только частое обучение, будет использовать CI для ответа на вопрос а), и они будут думать, что они являются подходящим ответом на частые вопросы)
вероятностный
2
да, под словом «немного непослушный» я просто имел в виду, что Джейнс высказывал эту точку зрения довольно злонамеренно (но также занимательно) конфронтационно (или, по крайней мере, так я ее читал). Но если бы он этого не сделал, то это, вероятно, не оказало бы никакого влияния.
Дикран Сумчатый
23

Это «конкретный» пример, приведенный в книге, написанной Ларри Вассерманом. Вся статистика на стр. 216 ( 12.8 Сильные и слабые стороны байесовского вывода ). Я в основном даю то, что Вассерман не делает в своей книге: 1) объяснение того, что происходит на самом деле, а не просто черту; 2) частый ответ на вопрос, который Вассерман удобно не дает; и 3) демонстрация того, что эквивалентная достоверность, рассчитанная с использованием одной и той же информации, страдает той же проблемой.

В этом примере он утверждает следующую ситуацию

  1. (X|θ)N(θ,1)
  2. (θ)N(0,1)τ2τ2=1

θθ

... Что мы должны сделать из всего этого? Важно понимать, что частые и байесовские методы отвечают на разные вопросы. Чтобы объединить предыдущие убеждения с данными принципиальным образом, используйте байесовский вывод. Для создания процедур с гарантированной долгосрочной производительностью, таких как доверительные интервалы, используйте методы частых ... (p217)

И затем продвигается без каких-либо недоразумений или объяснений того, почему байесовский метод оказался явно плохим. Кроме того, он не дает ответа от подхода, основанного на частом подходе, а просто дает широкое заявление о «долгосрочной перспективе» - классической политической тактике (подчеркните свою силу + слабость других, но никогда не сравнивайте подобное с подобным).

τ=1

θN(0,1)θp(θ)1YN(θ,1)Xθ

p(θ|Y)p(θ)p(Y|θ)exp(12(Yθ)2)

(θ|Y)N(Y,1)X00X

θx¯=0+X2=X2

(x¯|θ)N(θ,12)

(1α)%

12X±Zα/212

(1α)%θ

cX±cZα/2

c=τ21+τ2τ2=1c=12

12X±Zα/212

p(θ)1X±Zα/2)

X=00θ=4X0θ=4, Фактически вы можете показать, что этот пример в основном эквивалентен показу того, что среднее арифметическое имеет неограниченную функцию влияния.

τ=1τ2=1N (N=0,1,2,3,)NX0Xθ0θ0

probabilityislogic
источник
1
Спасибо за анализ. AFAICS это всего лишь пример проблемы, вызванной неверным (информативным) предварительным предположением, и ничего не говорит о внутренней согласованности байесовского подхода?
Дикран Marsupial
1
0θ
0X0XθθX0X0θθ
вероятностная
10

Проблема начинается с вашего предложения:

Примеры, основанные на неправильных предыдущих предположениях, неприемлемы, поскольку они ничего не говорят о внутренней согласованности различных подходов.

Да, ну, как вы знаете, ваш предварительный верен?

Возьмем случай байесовского вывода в филогении. Вероятность хотя бы одного изменения связана с эволюционным временем (длина ветви t) по формуле

P=1e43ut

с тобой скорость замещения.

Теперь вы хотите сделать модель эволюции, основанную на сравнении последовательностей ДНК. По сути, вы пытаетесь оценить дерево, в котором вы пытаетесь смоделировать величину изменения между последовательностями ДНК как можно ближе. Р выше - это шанс хотя бы одного изменения в данной ветке. Эволюционные модели описывают шансы изменения между любыми двумя нуклеотидами, и из этих эволюционных моделей определяется функция оценки, либо с p в качестве параметра, либо с t в качестве параметра.

У вас нет разумных знаний, и вы выбрали квартиру заранее для р. Это по сути подразумевает экспоненциально убывающий априор для t. (Это становится еще более проблематичным, если вы хотите установить квартиру до t. Подразумеваемый априор до p сильно зависит от того, где вы отрежете диапазон t.)

Теоретически, t может быть бесконечным, но когда вы разрешаете бесконечный диапазон, область под его функцией плотности также равна бесконечности, поэтому вы должны определить точку усечения для предыдущего. Теперь, когда вы выбрали достаточно большую точку усечения, нетрудно доказать, что оба конца вероятного интервала растут, и в определенной точке истинное значение больше не содержится в вероятном интервале. Если у вас нет очень хорошего представления о предыдущих, байесовские методы не гарантируют, что они будут равны или превосходят другие методы.

ссылка: Иосиф Фельзенштейн: вывод филогений, глава 18

Кстати, я заболел этой байесовской / частой ссорой. Они оба разные рамки, и ни одна из них не является Абсолютной Истиной. Классические примеры про байесовских методов инвариантно исходят из расчета вероятности, и ни один частый участник не будет им противоречить. Классический аргумент против байесовских методов инвариантно предполагает произвольный выбор априора. И разумные приоры определенно возможны.

Все сводится к правильному использованию любого метода в нужное время. Я видел очень мало аргументов / сравнений, где оба метода были применены правильно. Предположения любого метода очень недооценены и слишком часто игнорируются.

РЕДАКТИРОВАТЬ: чтобы уточнить, проблема заключается в том, что оценка, основанная на р, отличается от оценки, основанной на т в байесовской системе при работе с неинформативными априорными (что в ряде случаев является единственно возможным решением). Это не верно в рамках ML для филогенетического вывода. Это не вопрос неправильного априора, это присуще методу.

Йорис Мейс
источник
3
Можно быть заинтересованным в различиях между байесовской и частичной статистикой, не будучи ссорой. Важно знать недостатки, а также преимущества предпочтительного подхода. Я специально исключил приоры, так как это не проблема с самим фреймворком, а просто вопрос GIGO. То же самое относится к статистике частых пользователей, например, при допущении и неправильном параметрическом распределении данных. Это не было бы критикой методологии, основанной на частоте, только конкретным методом. Кстати, у меня нет особых проблем с неправильными приорами.
Дикран Marsupial
3
Первый пример Джейнса: Ни один здравомыслящий статистик никогда не будет использовать F-тест и T-тест для этого набора данных. Кроме того, он сравнивает двусторонний тест с P (b> a), что не является проверенной гипотезой. Так что его пример несправедлив, что он, по сути, признает позже. Кроме того, вы не можете сравнить «рамки». О чем мы тогда говорим? ML, REML, LS, штрафные методы, ...? интервалы для коэффициентов, статистики, прогнозов, ...? Вы также можете спросить, является ли лютеранская служба эквивалентной или превосходящей шиитскую службу. Они говорят о том же Боге.
Йорис Мейс
Не могли бы вы уточнить, каковы ваши данные и какие параметры вы бы оценивали в вашей модели? Я немного запутался в этом вопросе. Кроме того, не могли бы вы использовать $$ вместо $, чтобы центрировать формулу? Размер шрифта очень маленький прямо сейчас.
@Srikant: пример из книги Фелзенштейна основан на модели Джукса-Кантора для эволюции ДНК. Данные - это последовательности ДНК. Вы хотите оценить вероятность изменения вашей последовательности, которая связана с длиной вашей ветви, на основе упомянутой формулы. Длина веток определяется как время эволюции: чем выше вероятность изменений, тем больше времени прошло между предком и текущим состоянием. Извините, но я не могу суммировать всю теорию, лежащую в основе ML и байесовского филогенетического вывода, в одном посте. Фельзенштейну для этого понадобилась половина книги.
Йорис Мейс
Думаю, я просто хотел, чтобы вы разъяснили, какие переменные в вашем уравнении являются данными, а какие - параметром, поскольку из вашего поста не было ясно, особенно для такого человека, как я, который является аутсайдером. Я все еще потерян, но я думаю, что мне нужно прочитать книгу, чтобы узнать больше.
10

Кит Винстейн,

РЕДАКТИРОВАТЬ: просто чтобы уточнить, этот ответ описывает пример, приведенный в ответе Кейта Винштейна на короля с жестокой статистической игры. Ответы Байесовский и Фрикалистский оба используют одну и ту же информацию, то есть игнорируют информацию о количестве справедливых и недобросовестных монет при построении интервалов. Если эта информация не игнорируется, участнику следует использовать интегрированное бета-биномиальное правдоподобие в качестве распределения выборки при построении доверительного интервала, и в этом случае доверительный интервал Клоппера-Пирсона не подходит и его необходимо изменить. Аналогичная корректировка должна происходить в байесовском решении.

РЕДАКТИРОВАТЬ: Я также разъяснил первоначальное использование интервала Пепсона клоппера.

РЕДАКТИРОВАТЬ: увы, моя альфа неправильно, и мой интервал Клоппера Пирсона является неправильным. Мои самые скромные извинения @whuber, который правильно указал на это, но с кем я изначально не согласился и проигнорировал.

CI Использование метода Клоппера Пирсона очень хорошо

θ

[Pr(Bi(1,θ)X)α2][Pr(Bi(1,θ)X)α2]

X=1Pr(Bi(1,θ)1)=θPr(Bi(1,θ)1)=1θα21α2X=1X=0Pr(Bi(1,θ)0)=1Pr(Bi(1,θ)0)=1θ1θα2θ1α2X=0[0.025,1]X=1[0,0.975]X=0

Таким образом, тот, кто использует доверительный интервал Клоппера Пирсона, никогда не будет обезглавлен. После наблюдения интервала это в основном все пространство параметров. Но интервал CP делает это, предоставляя 100% покрытие предположительно 95% интервала! По сути, Frequentists «обманывают», предоставляя на 95% доверительный интервал больший охват, чем его / ее просили дать (хотя кто бы не обманывал в такой ситуации? Если бы это был я, я бы отдал все [0, 1] интервал). Если бы король попросил точный 95% CI, этот частый метод потерпел бы неудачу независимо от того, что на самом деле произошло (возможно, существует лучший вариант?).

Как насчет байесовского интервала? (в частности, Байесовский интервал наивысшей задней десности (HPD))

(θ|X)Beta(1+X,2X)Pr(θθe|x=1)=1(θe)2Pr(θθe|x=0)=1(1θe)2θe=0.050.224X=1θe=10.050.776X=0(0,0.776)X=0(0.224,1)X=1

11012+1×1100

0.1

0.0250.975

Чтобы процитировать подлинный 95% доверительный интервал, тогда по определению должны быть некоторые случаи (то есть, по крайней мере, один) наблюдаемого интервала, которые не содержат истинного значения параметра . Иначе, как можно оправдать тег 95%? Разве не будет правильным или недействительным называть его интервалом 90%, 50%, 20% или даже 0%?

Я не вижу, как просто сказать «на самом деле это означает 95% или более» без дополнительных ограничений, является удовлетворительным. Это связано с тем, что очевидным математическим решением является все пространство параметров, а задача тривиальна. Предположим, я хочу 50% CI? если он ограничивает только ложные отрицания, то все пространство параметров является допустимым CI, использующим только этот критерий.

100%X=0100×1012+9101012+1%>95%X=1

В заключение, кажется немного странным запрашивать интервал неопределенности, а затем оценивать этот интервал, используя истинное значение, в котором мы были не уверены. Мне кажется, что «более справедливое» сравнение как по доверительным, так и по достоверным интервалам является правдой утверждения о неопределенности, данного с интервалом .

probabilityislogic
источник
α1α
1012α1α
1012α1α1α21θθ
Вы имеете в виду ответ @Keith Winstein?
whuber
@ whuber, да, я имею в виду ответ Кейта Уинштейна.
вероятностная
8

Частотные доверительные интервалы ограничивают частоту ложных срабатываний (ошибки типа I) и гарантируют, что их охват будет ограничен параметром достоверности ниже, даже в худшем случае. Байесовские интервалы достоверности не делают.

Так что, если вы беспокоитесь о ложных срабатываниях и вам нужно их связать, доверительные интервалы - это подход, который вы захотите использовать.

Например, допустим, у вас есть злой король с двором из 100 придворных и куртизанок, и он хочет сыграть с ними жестокую статистическую игру. У короля есть сумка из триллиона честных монет плюс одна нечестная монета, вероятность головы которой составляет 10%. Он собирается выполнить следующую игру. Сначала он случайным образом вытянет монету из сумки.

Затем монета будет разнесена по комнате на 100 человек, и каждый из них будет вынужден провести эксперимент с ней лично, а затем каждый из них установит 95-процентный интервал неопределенности в отношении вероятности головы монеты.

Любой, кто дает интервал, который представляет ложный положительный результат - то есть интервал, который не покрывает истинное значение вероятности головы - будет обезглавлен.

Если мы хотим выразить апостериорную / вероятностную функцию распределения веса монеты, то, конечно, для этого нужен интервал достоверности. Ответом всегда будет интервал [0,5, 0,5] независимо от результата. Даже если вы перевернете ноль или одну голову, вы все равно скажете [0,5, 0,5], потому что, черт возьми, гораздо более вероятно, что король вытащил честную монету, и у вас было 1/1024 дня, чтобы получить десять голов подряд Чем король вытащил нечестную монету.

Так что это не очень хорошая идея для придворных и куртизанок! Потому что, когда нечестная монета вытянута, вся комната (все 100 человек) будет неправильной, и все они будут обезглавлены.

В этом мире, где самая важная вещь - ложные срабатывания, нам нужна абсолютная гарантия того, что процент ложных срабатываний будет меньше 5%, независимо от того, какая монета выбрана. Затем нам нужно использовать доверительный интервал, такой как Blyth-Still-Casella или Clopper-Pearson, который работает и обеспечивает охват не менее 95% независимо от истинного значения параметра, даже в худшем случае . Если все используют этот метод вместо этого, то независимо от того, какая монета выбрана, в конце дня мы можем гарантировать, что ожидаемое количество неправильных людей будет не более пяти.

Итак, суть в том, что если ваш критерий требует ограничения ложных срабатываний (или, что то же самое, гарантирования покрытия), вы должны идти с доверительным интервалом. Это то, что они делают. Интервалы достоверности могут быть более интуитивно понятным способом выражения неопределенности, они могут довольно неплохо работать при анализе часто используемых данных, но они не будут обеспечивать гарантированную границу ложных срабатываний, которые вы получите, когда будете просить об этом.

(Конечно, если вы также заботитесь о ложных негативах, вам понадобится метод, который дает гарантии и для тех ...)

Кит Винстейн
источник
6
Пища для размышления, однако конкретный пример является несправедливым, так как частый подход позволяет учитывать относительные издержки ложноположительных и ложноотрицательных затрат, а байесовский - нет. В соответствии с байесовской теорией решений правильнее всего дать интервал [0,1], поскольку штрафы за ложноотрицательные результаты отсутствуют. Таким образом, при сравнительном сопоставлении рамок ни один из байесов не будет обезглавлен. Вопрос об ограничении ложных срабатываний, тем не менее, дает мне направление, в котором нужно искать ответ на вызов Джейнса.
Дикран Marsupial
1
Также обратите внимание, что если выбранная монета переворачивается достаточно часто, то в конечном итоге байесовский доверительный интервал будет сосредоточен на долгосрочной частоте голов для конкретной монеты, а не на предыдущей. Если бы моя жизнь зависела от интервала, содержащего истинную вероятность головы, я бы не перевернул монету только один раз!
Дикран Marsupial
1
Имея хотя бы немного больше об этом, этот пример недопустим, поскольку критерий, используемый для измерения успеха, не совпадает с критерием, заданным королем. Проблема в том, что «независимо от того, какая монета вытянута», это условие предназначено для того, чтобы запутать любой метод, использующий предварительные знания о редкости смещенной монеты. Когда это происходит, байесайны могут также получать границы (например, границы PAC), и если бы их спросили, это бы произошло, и я подозреваю, что ответ будет таким же, как интервал Клоппера-Пирсона. Чтобы быть честным тестом, одинаковая информация должна быть предоставлена ​​обоим подходам.
Дикран Marsupial
1
Дикран, не должно быть "Байесов" и "Частых". Это не несовместимые философские школы, на которые можно подписаться только на одну! Это математические инструменты, эффективность которых может быть продемонстрирована в общих рамках теории вероятностей. Моя точка зрения заключается в том, что ЕСЛИ требование является абсолютной границей ложных срабатываний, независимо от истинного значения параметра, то доверительный интервал - это метод, который выполняет это. Конечно, мы все согласны с одинаковыми аксиомами вероятности, и один и тот же ответ может быть получен многими способами.
Кит Винстейн
1
[0.1,0.5]0.10.5100%95%
вероятностный
0

Существуют ли примеры, когда доверительный интервал между частями явно превосходит достоверный байесовский интервал (согласно задаче, неявно принятой Джейнсом).

θ10θ1θ

Бернардо предложил «ссылочный априор», который будет использоваться в качестве стандарта для научной коммуникации [и даже «эталонный достоверный интервал» ( Бернардо - объективные заслуживающие доверия регионы )]. Предполагая, что это «байесовский» подход, теперь возникает вопрос: когда интервал превосходит другой? Частотные свойства байесовского интервала не всегда оптимальны, но также и байесовские свойства «частичного интервала»
(кстати, что такое «частичный интервал»?)

Стефан Лоран
источник
Я размышляю, но я подозреваю, что этот ответ обязательно получит такое же обращение, как и другие. Кто-то просто поспорит, что это проблема плохого выбора предшествующего уровня, а не какой-то внутренней слабости байесовских процедур, что, на мой взгляд, частично пытается избежать обоснованной критики.
кардинал
Комментарий @ cardinal совершенно прав. Приоритет здесь на порядок выше, что делает критику очень слабой. Предыдущая информация имеет значение и для частых людей; то, что известно априори, должно определять, например, какие оценки и тестовые статистические данные используются. Если эти выборы основаны на информации, которая на порядок неверна, следует ожидать плохих результатов; быть байесианцем или частиком не входит в это.
Гость
Мой «пример» не был важной частью моего ответа. Но каков хороший выбор предшествующего? Легко представить себе априора, чья поддержка содержит истинный параметр, а апостериор - нет, поэтому интервал между частотами выше?
Стефан Лоран
Кардинал и гость правы, мой вопрос явно включал: «Примеры, основанные на неправильных предыдущих предположениях, неприемлемы, поскольку они ничего не говорят о внутренней согласованности различных подходов». по уважительной причине. Частотные тесты могут основываться как на неверных предположениях, так и на байесовских (в байесовской структуре эти предположения изложены более явно); вопрос в том, есть ли у структуры недостатки. Также, если бы истинное значение было в предыдущем, а не в последнем, это означало бы, что наблюдения исключали возможность правильного истинного значения!
Дикран Marsupial
1
Может быть, я должен отредактировать свой ответ и удалить свой «пример» - это не серьезная часть моего ответа. Мой ответ был в основном о значении «байесовского подхода». Что вы называете байесовским подходом? Этот подход требует выбора субъективного априора или использует автоматический способ выбора неинформативного априора? Во втором случае важно упомянуть работу Бернардо. Во-вторых, вы не определили отношение «превосходство» между интервалами: когда вы говорите, интервал превосходит другой?
Стефан Лоран