Недавний вопрос о разнице между доверием и достоверными интервалами заставил меня начать перечитывать статью Эдвина Джейнса на эту тему:
Jaynes, ET, 1976. «Доверительные интервалы против байесовских интервалов», в Основах теории вероятностей, статистического вывода и статистических теорий науки, WL Harper и CA Hooker (eds.), D. Reidel, Dordrecht, p. 175; ( pdf )
В аннотации Джейнс пишет:
... мы показываем байесовские и ортодоксальные решения шести общих статистических проблем, включающих доверительные интервалы (включая тесты значимости, основанные на том же рассуждении). В любом случае мы обнаруживаем, что ситуация совершенно противоположная, то есть байесовский метод легче применять и дает такие же или лучшие результаты. Действительно, ортодоксальные результаты являются удовлетворительными только тогда, когда они близко (или точно) согласуются с байесовскими результатами. Противоположного примера пока не было.
(акцент мой)
Статья была опубликована в 1976 году, поэтому, возможно, все пошло дальше. Мой вопрос заключается в том, есть ли примеры, когда доверительный интервал между частями явно превосходит байесовский достоверный интервал (согласно задаче, неявно поставленной Джейнсом)?
Примеры, основанные на неправильных предыдущих предположениях, неприемлемы, поскольку они ничего не говорят о внутренней согласованности различных подходов.
источник
Ответы:
Я сказал ранее, что я хотел бы ответить на вопрос, так что здесь идет ...
Джейнс был немного непослушным в своей работе в том смысле, что доверительный интервал часто не определяется как интервал, в котором можно ожидать, что истинное значение статистики будет лежать с высокой (заданной) вероятностью, поэтому неудивительно, что противоречия возникают, если они интерпретируются, как если бы они были. Проблема заключается в том, что именно так часто используются доверительные интервалы на практике, поскольку интервал, который с большой вероятностью будет содержать истинное значение (учитывая то, что мы можем вывести из нашей выборки данных), - это то, что мы часто хотим.
Ключевой вопрос для меня заключается в том, что когда задается вопрос, лучше всего иметь прямой ответ на этот вопрос. Являются ли достоверные байесовские интервалы хуже, чем частые доверительные интервалы, зависит от того, какой вопрос на самом деле задавался. Если заданный вопрос был:
(a) «Дайте мне интервал, в котором истинное значение статистики лежит с вероятностью p», тогда кажется, что частый человек не может на самом деле ответить на этот вопрос напрямую (и это приводит к типу проблем, которые Джейнс обсуждает в своей статье), но Байесовская банка, поэтому байесовский достоверный интервал превосходит частый доверительный интервал в примерах, приведенных Джейнсом. Но это только потому, что это «неправильный вопрос» для частых.
(б) «Дайте мне интервал, в котором, если бы эксперимент повторялся большое количество раз, истинное значение статистики лежало бы в пределах p * 100% таких интервалов», тогда ответ на частый вопрос - именно то, что вам нужно. Байесовский также может быть в состоянии дать прямой ответ на этот вопрос (хотя это может быть не просто очевидный достоверный интервал). Комментарий Уубер по этому вопросу предполагает, что это так.
По сути, это вопрос правильного определения вопроса и правильной интерпретации ответа. Если вы хотите задать вопрос (а), то используйте байесовский достоверный интервал, если вы хотите задать вопрос (б), то используйте доверительный интервал для частых.
источник
Это «конкретный» пример, приведенный в книге, написанной Ларри Вассерманом. Вся статистика на стр. 216 ( 12.8 Сильные и слабые стороны байесовского вывода ). Я в основном даю то, что Вассерман не делает в своей книге: 1) объяснение того, что происходит на самом деле, а не просто черту; 2) частый ответ на вопрос, который Вассерман удобно не дает; и 3) демонстрация того, что эквивалентная достоверность, рассчитанная с использованием одной и той же информации, страдает той же проблемой.
В этом примере он утверждает следующую ситуацию
... Что мы должны сделать из всего этого? Важно понимать, что частые и байесовские методы отвечают на разные вопросы. Чтобы объединить предыдущие убеждения с данными принципиальным образом, используйте байесовский вывод. Для создания процедур с гарантированной долгосрочной производительностью, таких как доверительные интервалы, используйте методы частых ... (p217)
И затем продвигается без каких-либо недоразумений или объяснений того, почему байесовский метод оказался явно плохим. Кроме того, он не дает ответа от подхода, основанного на частом подходе, а просто дает широкое заявление о «долгосрочной перспективе» - классической политической тактике (подчеркните свою силу + слабость других, но никогда не сравнивайте подобное с подобным).
источник
Проблема начинается с вашего предложения:
Да, ну, как вы знаете, ваш предварительный верен?
Возьмем случай байесовского вывода в филогении. Вероятность хотя бы одного изменения связана с эволюционным временем (длина ветви t) по формуле
с тобой скорость замещения.
Теперь вы хотите сделать модель эволюции, основанную на сравнении последовательностей ДНК. По сути, вы пытаетесь оценить дерево, в котором вы пытаетесь смоделировать величину изменения между последовательностями ДНК как можно ближе. Р выше - это шанс хотя бы одного изменения в данной ветке. Эволюционные модели описывают шансы изменения между любыми двумя нуклеотидами, и из этих эволюционных моделей определяется функция оценки, либо с p в качестве параметра, либо с t в качестве параметра.
У вас нет разумных знаний, и вы выбрали квартиру заранее для р. Это по сути подразумевает экспоненциально убывающий априор для t. (Это становится еще более проблематичным, если вы хотите установить квартиру до t. Подразумеваемый априор до p сильно зависит от того, где вы отрежете диапазон t.)
Теоретически, t может быть бесконечным, но когда вы разрешаете бесконечный диапазон, область под его функцией плотности также равна бесконечности, поэтому вы должны определить точку усечения для предыдущего. Теперь, когда вы выбрали достаточно большую точку усечения, нетрудно доказать, что оба конца вероятного интервала растут, и в определенной точке истинное значение больше не содержится в вероятном интервале. Если у вас нет очень хорошего представления о предыдущих, байесовские методы не гарантируют, что они будут равны или превосходят другие методы.
ссылка: Иосиф Фельзенштейн: вывод филогений, глава 18
Кстати, я заболел этой байесовской / частой ссорой. Они оба разные рамки, и ни одна из них не является Абсолютной Истиной. Классические примеры про байесовских методов инвариантно исходят из расчета вероятности, и ни один частый участник не будет им противоречить. Классический аргумент против байесовских методов инвариантно предполагает произвольный выбор априора. И разумные приоры определенно возможны.
Все сводится к правильному использованию любого метода в нужное время. Я видел очень мало аргументов / сравнений, где оба метода были применены правильно. Предположения любого метода очень недооценены и слишком часто игнорируются.
РЕДАКТИРОВАТЬ: чтобы уточнить, проблема заключается в том, что оценка, основанная на р, отличается от оценки, основанной на т в байесовской системе при работе с неинформативными априорными (что в ряде случаев является единственно возможным решением). Это не верно в рамках ML для филогенетического вывода. Это не вопрос неправильного априора, это присуще методу.
источник
Кит Винстейн,
РЕДАКТИРОВАТЬ: просто чтобы уточнить, этот ответ описывает пример, приведенный в ответе Кейта Винштейна на короля с жестокой статистической игры. Ответы Байесовский и Фрикалистский оба используют одну и ту же информацию, то есть игнорируют информацию о количестве справедливых и недобросовестных монет при построении интервалов. Если эта информация не игнорируется, участнику следует использовать интегрированное бета-биномиальное правдоподобие в качестве распределения выборки при построении доверительного интервала, и в этом случае доверительный интервал Клоппера-Пирсона не подходит и его необходимо изменить. Аналогичная корректировка должна происходить в байесовском решении.
РЕДАКТИРОВАТЬ: Я также разъяснил первоначальное использование интервала Пепсона клоппера.
РЕДАКТИРОВАТЬ: увы, моя альфа неправильно, и мой интервал Клоппера Пирсона является неправильным. Мои самые скромные извинения @whuber, который правильно указал на это, но с кем я изначально не согласился и проигнорировал.
CI Использование метода Клоппера Пирсона очень хорошо
Таким образом, тот, кто использует доверительный интервал Клоппера Пирсона, никогда не будет обезглавлен. После наблюдения интервала это в основном все пространство параметров. Но интервал CP делает это, предоставляя 100% покрытие предположительно 95% интервала! По сути, Frequentists «обманывают», предоставляя на 95% доверительный интервал больший охват, чем его / ее просили дать (хотя кто бы не обманывал в такой ситуации? Если бы это был я, я бы отдал все [0, 1] интервал). Если бы король попросил точный 95% CI, этот частый метод потерпел бы неудачу независимо от того, что на самом деле произошло (возможно, существует лучший вариант?).
Как насчет байесовского интервала? (в частности, Байесовский интервал наивысшей задней десности (HPD))
Чтобы процитировать подлинный 95% доверительный интервал, тогда по определению должны быть некоторые случаи (то есть, по крайней мере, один) наблюдаемого интервала, которые не содержат истинного значения параметра . Иначе, как можно оправдать тег 95%? Разве не будет правильным или недействительным называть его интервалом 90%, 50%, 20% или даже 0%?
Я не вижу, как просто сказать «на самом деле это означает 95% или более» без дополнительных ограничений, является удовлетворительным. Это связано с тем, что очевидным математическим решением является все пространство параметров, а задача тривиальна. Предположим, я хочу 50% CI? если он ограничивает только ложные отрицания, то все пространство параметров является допустимым CI, использующим только этот критерий.
В заключение, кажется немного странным запрашивать интервал неопределенности, а затем оценивать этот интервал, используя истинное значение, в котором мы были не уверены. Мне кажется, что «более справедливое» сравнение как по доверительным, так и по достоверным интервалам является правдой утверждения о неопределенности, данного с интервалом .
источник
Частотные доверительные интервалы ограничивают частоту ложных срабатываний (ошибки типа I) и гарантируют, что их охват будет ограничен параметром достоверности ниже, даже в худшем случае. Байесовские интервалы достоверности не делают.
Так что, если вы беспокоитесь о ложных срабатываниях и вам нужно их связать, доверительные интервалы - это подход, который вы захотите использовать.
Например, допустим, у вас есть злой король с двором из 100 придворных и куртизанок, и он хочет сыграть с ними жестокую статистическую игру. У короля есть сумка из триллиона честных монет плюс одна нечестная монета, вероятность головы которой составляет 10%. Он собирается выполнить следующую игру. Сначала он случайным образом вытянет монету из сумки.
Затем монета будет разнесена по комнате на 100 человек, и каждый из них будет вынужден провести эксперимент с ней лично, а затем каждый из них установит 95-процентный интервал неопределенности в отношении вероятности головы монеты.
Любой, кто дает интервал, который представляет ложный положительный результат - то есть интервал, который не покрывает истинное значение вероятности головы - будет обезглавлен.
Если мы хотим выразить апостериорную / вероятностную функцию распределения веса монеты, то, конечно, для этого нужен интервал достоверности. Ответом всегда будет интервал [0,5, 0,5] независимо от результата. Даже если вы перевернете ноль или одну голову, вы все равно скажете [0,5, 0,5], потому что, черт возьми, гораздо более вероятно, что король вытащил честную монету, и у вас было 1/1024 дня, чтобы получить десять голов подряд Чем король вытащил нечестную монету.
Так что это не очень хорошая идея для придворных и куртизанок! Потому что, когда нечестная монета вытянута, вся комната (все 100 человек) будет неправильной, и все они будут обезглавлены.
В этом мире, где самая важная вещь - ложные срабатывания, нам нужна абсолютная гарантия того, что процент ложных срабатываний будет меньше 5%, независимо от того, какая монета выбрана. Затем нам нужно использовать доверительный интервал, такой как Blyth-Still-Casella или Clopper-Pearson, который работает и обеспечивает охват не менее 95% независимо от истинного значения параметра, даже в худшем случае . Если все используют этот метод вместо этого, то независимо от того, какая монета выбрана, в конце дня мы можем гарантировать, что ожидаемое количество неправильных людей будет не более пяти.
Итак, суть в том, что если ваш критерий требует ограничения ложных срабатываний (или, что то же самое, гарантирования покрытия), вы должны идти с доверительным интервалом. Это то, что они делают. Интервалы достоверности могут быть более интуитивно понятным способом выражения неопределенности, они могут довольно неплохо работать при анализе часто используемых данных, но они не будут обеспечивать гарантированную границу ложных срабатываний, которые вы получите, когда будете просить об этом.
(Конечно, если вы также заботитесь о ложных негативах, вам понадобится метод, который дает гарантии и для тех ...)
источник
Бернардо предложил «ссылочный априор», который будет использоваться в качестве стандарта для научной коммуникации [и даже «эталонный достоверный интервал» ( Бернардо - объективные заслуживающие доверия регионы )]. Предполагая, что это «байесовский» подход, теперь возникает вопрос: когда интервал превосходит другой? Частотные свойства байесовского интервала не всегда оптимальны, но также и байесовские свойства «частичного интервала»
(кстати, что такое «частичный интервал»?)
источник