В статистике часто встречается тесная связь между доверительными интервалами и тестами. Используя в качестве примера вывод о в распределении доверительный интервал содержит все значения , которые не отклоняются тестом на уровне значимости .
Частые доверительные интервалы являются в этом смысле инвертированными тестами. (Между прочим, это означает, что мы можем интерпретировать значение как наименьшее значение для которого нулевое значение параметра будет включено в доверительный интервал . Я считаю, что это может быть полезным способом объясните, что на самом деле представляют значения людям, которые немного разбираются в статистике.)
Читая о теоретико-решающей основе байесовских вероятных регионов , я начал задумываться, существует ли подобная связь / эквивалентность между достоверными регионами и байесовскими тестами.
- Есть ли общая связь?
- Если нет общей связи, есть ли примеры, где есть связь?
- Если нет общей связи, как мы можем это увидеть?
Ответы:
Мне удалось придумать пример, где существует связь. Похоже, это сильно зависит от моего выбора функции потери и использования сложных гипотез.
Я начну с общего примера, за которым следует простой частный случай, включающий нормальное распределение.
Общий пример
Для неизвестного параметра пусть будет пространством параметров и рассмотрим гипотезу сравнении с альтернативой .θ Θ θ∈Θ0 θ∈Θ1=Θ∖Θ0
Пусть функция тест, используя обозначения в Сиане «s байесовского выбор (который является своего рода задом наперед, что я по крайней мере , я привык к), так что мы отвергаем если и принятьφ Θ0 φ=0 Θ0 если . Рассмотрим функцию потерь
Тогда байесовский тест имеет видφ=1
Возьмиa0=α≤0.5 и . Нулевая гипотеза принимается, если .a1=1−α Θ0 P(θ∈Θ0|x)≥1−α
Теперь область - это область, такая что . Таким образом, по определению, если таково, чтоΘc P(Θc|x)≥1−α Θ0 P(θ∈Θ0|x)≥1−α , может быть заслуживающей доверия областью, только если .Θc P(Θ0∩Θc|x)>0
Мы принимаем нулевую гипотезу, если только если каждая достоверная область содержит ненулевое подмножество .1−α Θ0
Более простой частный случай
Чтобы лучше проиллюстрировать, какой тип теста мы имеем в приведенном выше примере, рассмотрим следующий особый случай.
Пусть с . Установите , иx∼N(θ,1) θ∼N(0,1) Θ=R Θ0=(−∞,0] Θ1=(0,∞) , чтобы мы хотели проверить, является ли .θ≤0
Стандартные расчеты дают
Пусть таково, что .z1−α Φ(z1−α)=1−α Θ0 принимается, когда .−x/2–√>z1−α
Это эквивалентно принятию, когдаДля ,x≤2–√zα. α=0.05 Θ0 поэтому отвергнуто , если .x>−2.33
Если вместо этого мы используем предыдущий ,θ∼N(ν,1) Θ0 отклоняется, когда .x>−2.33−ν
Комментарии
Вышеуказанная функция потерь, в которой мы считаем, что ложное принятие нулевой гипотезы хуже, чем ложное отклонение ее, на первый взгляд может показаться слегка искусственной. Однако он может быть полезен в ситуациях, когда «ложные негативы» могут быть дорогостоящими, например, при проверке на опасные заразные заболевания или террористов.
Условие, что все вероятные регионы должны содержать часть на самом деле немного сильнее, чем я надеялся: в частом случае соответствие между единственным тестом и одним доверительным интервалом а не между одним тест и все интервалы.Θ0 1−α 1−α
источник
Майкл и Фрайхо предположили, что простая проверка, содержалось ли значение интересующего параметра в некоторой вероятной области, является байесовским эквивалентом инвертирования доверительных интервалов. Сначала я немного скептически отнесся к этому, поскольку для меня не было очевидным, что эта процедура действительно привела к Байесовскому тесту (в обычном смысле).
Как выясняется, это так - по крайней мере, если вы готовы принять определенный тип функций потерь. Большое спасибо Zen , который предоставил ссылки на две статьи, которые устанавливают связь между регионами HPD и проверкой гипотез:
Я постараюсь обобщить их здесь, для дальнейшего использования. По аналогии с примером из исходного вопроса я рассмотрю частный случай, когда гипотезы где Θ пространство параметров.
Pereira & Стерн предложил метод для тестирования гипотез говорит без того , чтобы положить априорные вероятности на и & thetas 1Θ0 Θ1 .
Пусть обозначает функцию плотности θ и определяем T ( x ) = { θ : π ( θ | x ) > π ( θ 0 | x ) } .π(⋅) θ
Это означает, что является областью HPDT(x) с вероятностью .P(θ∈T(x)|x)
Pereira-Стерн тест отвергает , когда Р ( & thetas ; ∉ Т ( х ) | х ) является "малой" ( < 0,05 , скажу). Для унимодального заднего, это означает , что & thetas ; 0 находится далеко в хвостах заднего, что делает этот критерий несколько похожего на использование р-значения. Другими словами, Θ 0 отклоняется на уровне 5 % тогда и только тогда, когда он не содержится в области 95 % HPD.Θ0 P(θ∉T(x)|x) <0.05 θ0 Θ0 5 % 95 %
Пусть тестовая функция равна 1, если Θ 0 принята, и 0, если Θ 0 отклонена. Мадруга и др. предложил функцию потерь L ( θ , φ , x ) = { a ( 1 - I ( θ ∈ T ( x ) ) , если φ ( x ) = 0 b + c I ( θ ∈ ( T (φ 1 Θ0 0 Θ0
причемa,b,c>0.
Минимизация ожидаемых потерь приводит к Pereira-Stern теста , где отвергается , если Р ( & thetas ; ∉ Т ( х ) | х ) < ( Ь + с ) / ( + с ) .Θ0 P(θ∉T(x)|x)<(b+c)/(a+c).
Пока все хорошо. Pereira-Стерны тесты эквивалентны проверка , является лиθ0 в области HPD, и есть функция потерь, которая генерирует этот тест, что означает, что он основан на теории принятия решений.
Спорным моментом является то, что функция потерь зависит отx . Хотя такие функции потери появлялись в литературе несколько раз, они, похоже, не являются общепринятыми.
Для дальнейшего чтения по этой теме, см. Список статей, в которых цитируется Madruga et al. статья .
Обновление октябрь 2012:
Я не был полностью удовлетворен вышеуказанной функцией потерь, так как ее зависимость от делает процесс принятия решений более субъективным, чем мне бы хотелось. Я потратил еще немного времени на обдумывание этой проблемы и в итоге написал короткую заметку о ней, опубликованную ранее на arXiv .x
Пусть обозначает заднюю квантильную функцию от θ , такую что P ( θ ≤ q α ( θ | x ) ) = α . Вместо множеств HPD рассмотрим центральный (равносторонний) интервал ( q α / 2 ( θ | x ) , q 1 - α / 2 ( θ | x ) ) . Тестироватьqα(θ|x) θ P(θ≤qα(θ|x))=α (qα/2(θ|x),q1−α/2(θ|x)) с использованием этого интервала может быть оправдано в теоретико-решающей структуре без функции потерь, которая зависит от x .Θ0 x
Хитрость заключается в том, чтобы переформулировать проблему проверки точечной нулевой гипотезы как задачу с тремя решениями с направленными выводами. Θ 0 затем проверяется как Θ - 1 = { θ : θ < θ 0 }, так и Θ 1 = { θ : θ > θ 0 } .Θ0={θ0} Θ0 Θ−1={θ:θ<θ0} Θ1={θ:θ>θ0}
Пусть тестовая функция если мы примем Θ i (обратите внимание, что это обозначение противоположно тому, которое использовалось выше!). Оказывается, что при взвешенной 0 - 1 функции потерь L 2 ( θ , φ ) = { 0 , если θ ∈ Θ i и φ = i ,φ=i Θi 0−1
тест Байеса, чтобы отклонитьthetas0еслиθ0не находится в центральном интервале.
This seems like a quite reasonable loss function to me. I discuss this loss, the Madruga-Esteves-Wechsler loss and testing using credible sets further in the manuscript on arXiv.
источник
I coincidentally read your arXiv paper prior to coming to this question and already wrote a blog entry on it (scheduled to appear on October, 08). To sum up, I find your construction of theoretical interest, but also think it is too contrived to be recommended, esp. as it does not seem to solve the point-null hypothesis Bayesian testing problem, which traditionally requires to put some prior mass on the point-null parameter value.
To wit, the solution you propose above (in the October update) and as Theorem 2 in your arXiv paper is not a valid test procedure in thatφ takes three values, rather than the two values that correspond to accept/reject. Similarly, the loss function you use in Theorem 3 (not reproduced here) amounts to testing a one-sided hypothesis, H0:θ≤θ0 , rather than a point-null hypothesis H0:θ=θ0 .
My major issue however is that it seems to me that both Theorem 3 and Theorem 4 in your arXiv paper are not valid whenH0 is a point-null hypothesis, i.e. when Θ0={θ0} , with no prior mass.
источник
You can use a credible interval (or HPD region) for Bayesian hypothesis testing. I don't think it is common; though, to be fair I do not see much nor do I use formal Bayesian Hypothesis testing in practice. Bayes factors are occasionally used (and in Robert's "Bayesian Core" somewhat lauded) in hypothesis testing set up.
источник
A credible region is just a region where the integral of the posterior density over the region is a specified probability e.g. 0.95. One way to form a Bayesian hypothesis test is to see whether or not the null hypothesized value(s) of the parameter(s) fall in the credible region. In this way we can have a similar 1-1 correspondence between hypothesis tests and credible regions just like the frequentists do with confidence intervals and hypothesis tests. But this is not the only way to do hypothesis testing.
источник
Let me give it how I got it reading Tim's answer.
It is based on the table views with hypothesis (estimated parameter) in columns and observations in the rows.
In the first table, you have col probabilities sum to 1, i.e. they are conditional probabilities, whose condition, getting into the column event is supplied in the bottom row, called 'prior'. In the last table, rows similarly sum to 1 and in the middle you have joint probabilities, i.e. conditional probabilities you find in the first and last table times the probability of the condition, the priors.
The tables basically perform the Bayesian transform: in the first table, you give p.d.f of the observations (rows) in every column, set the prior for this hypothesis (yes, hypothesis column is a pdf of observations under that hypothesis), you do that for every column and table takes it first into the joint probabilites table and, then into the probabilities of your hypothesis, conditioned by observations.
As I have got from Tim's answer (correct me if I am wrong), the Critical Interval approach looks at the first table. That is, once experiment is complete, we know the row of the table (either heads or tails in my example but you may make more complex experiments, like 100 coin flips and get a table with 2^100 rows). Frequentialist scans through its columns, which, as I have said, is a distribution of possible outcomes under condition that hypothesis colds true (e.g. coin is fair in my example), and rejects those hypothesis (columns) that has give very low probability value at the observed row.
Bayesianist first adjust the probabilities, converting cols into rows and looks at table 3, finds the row of the observed outcome. Since it is also a p.d.f, he goes through the experiment outcome row and picks the highest-prob hypethesis until his 95% credibility pocket is full. The rest of hypothesis is rejected.
How do you like it? I am still in the process of learning and graphic seems helpful to me. I belive that I am on the right track since a reputable user gives the same picture, when analyzes the difference of two approaches. I have proposed a graphical view of the mechanics of hypothesis selection.
I encourage everybody to read that Keith last answer but my picture of hypothesis test mechanics can immediately say that frequentist does not look at the other hypothesis when verifies the current one whereas consideration of high credibile hypothesis highly impacts the reception/rejection of other hypotheses in bayesian analisys because if you have a single hypothesis which occurs 95% of times under observed data, you throw all other hypothesis immediately, regardless how well is data fit within them. Let's put the statistical power analysis, which contrast two hypotheses based on their confidence intervals overlap, aside.
But, I seem have spotted the similarity between two approaches: they seem to be connected through
P(A | B) > P(A) <=> P(B|A) > P(B)
property. Basically, if there is a dependence between A and B then it will show up as correlation in both freq and bayesian tables. So, doing one hypothesis test correlates with the other, they sorta must give the same results. Studying the roots of the correlation, will likely give you the connection between the two. In my question there I actually ask why is the difference instead of absolute correlation?источник