Какова связь между заслуживающими доверия регионами и проверкой байесовских гипотез?

38

В статистике часто встречается тесная связь между доверительными интервалами и тестами. Используя в качестве примера вывод о в распределении доверительный интервал содержит все значения , которые не отклоняются тестом на уровне значимости .μN(μ,σ2)1α

x¯±tα/2(n1)s/n
μtα

Частые доверительные интервалы являются в этом смысле инвертированными тестами. (Между прочим, это означает, что мы можем интерпретировать p значение как наименьшее значение α для которого нулевое значение параметра будет включено в доверительный интервал 1α . Я считаю, что это может быть полезным способом объясните, что на самом деле представляют p значения людям, которые немного разбираются в статистике.)

Читая о теоретико-решающей основе байесовских вероятных регионов , я начал задумываться, существует ли подобная связь / эквивалентность между достоверными регионами и байесовскими тестами.

  • Есть ли общая связь?
  • Если нет общей связи, есть ли примеры, где есть связь?
  • Если нет общей связи, как мы можем это увидеть?
MånsT
источник
Смежный вопрос, который меня интересует, может ли кто-нибудь указать мне на статью, которую они считают «золотым стандартом» или «каноническим примером» проверки байесовской гипотезы, используемой на реальной задаче, а не на игрушечном примере. Я никогда по-настоящему не понимал тестирование байесовской гипотезы и думаю, что нашел бы хороший пример поучительного ее использования.
Патрик Колдон
2
@PatrickCaldon Я сомневаюсь, что в этом есть «золотая бумага», потому что тестирование байесовской гипотезы сформулировано в рамках теории принятия решений (поэтому она слишком широка, чтобы быть записанной в одной статье). Книга, упомянутая в ответе MånsT, дает хороший материал, книги Бергера и беседы также могут представлять интерес.
Я считаю, что статья ba.stat.cmu.edu/vol03is01.php может прояснить большую часть нашей дискуссии здесь.
Карлос А.Б. Перейра
Спасибо, Карлос! Похоже, что ссылка сейчас не работает, но я предполагаю, что она ведет к вашей статье 2008 года в Bayesian Analysis со Стерном и Векслером. Я обнаружил, что очень интересно читать!
MånsT
Уважаемый MånsT: Байесовский анализ перенесен в проект Евклид. Бумага профессора Карлоса находится здесь: projecteuclid.org/…
Zen

Ответы:

19

Мне удалось придумать пример, где существует связь. Похоже, это сильно зависит от моего выбора функции потери и использования сложных гипотез.

Я начну с общего примера, за которым следует простой частный случай, включающий нормальное распределение.

Общий пример

Для неизвестного параметра пусть будет пространством параметров и рассмотрим гипотезу сравнении с альтернативой .θΘθΘ0θΘ1=ΘΘ0

Пусть функция тест, используя обозначения в Сиане «s байесовского выбор (который является своего рода задом наперед, что я по крайней мере , я привык к), так что мы отвергаем если и принятьφΘ0φ=0Θ0 если . Рассмотрим функцию потерь Тогда байесовский тест имеет видφ=1

L(θ,φ)={0,if φ=IΘ0(θ)a0,if θΘ0 and φ=0a1,if θΘ1 and φ=1.
φπ(x)=1ifP(θΘ0|x)a1(a0+a1)1.

Возьмиa0=α0.5 и . Нулевая гипотеза принимается, если .a1=1αΘ0P(θΘ0|x)1α

Теперь область - это область, такая что . Таким образом, по определению, если таково, чтоΘcP(Θc|x)1αΘ0P(θΘ0|x)1α , может быть заслуживающей доверия областью, только если .ΘcP(Θ0Θc|x)>0

Мы принимаем нулевую гипотезу, если только если каждая достоверная область содержит ненулевое подмножество .1αΘ0

Более простой частный случай

Чтобы лучше проиллюстрировать, какой тип теста мы имеем в приведенном выше примере, рассмотрим следующий особый случай.

Пусть с . Установите , иxN(θ,1)θN(0,1)Θ=RΘ0=(,0]Θ1=(0,) , чтобы мы хотели проверить, является ли .θ0

Стандартные расчеты дают

P(θ0|x)=Φ(x/2),
где - стандартный нормальный cdf.Φ()

Пусть таково, что .z1αΦ(z1α)=1αΘ0 принимается, когда .x/2>z1α

Это эквивалентно принятию, когдаДля ,x2zα.α=0.05Θ0 поэтому отвергнуто , если .x>2.33

Если вместо этого мы используем предыдущий ,θN(ν,1)Θ0 отклоняется, когда .x>2.33ν

Комментарии

Вышеуказанная функция потерь, в которой мы считаем, что ложное принятие нулевой гипотезы хуже, чем ложное отклонение ее, на первый взгляд может показаться слегка искусственной. Однако он может быть полезен в ситуациях, когда «ложные негативы» могут быть дорогостоящими, например, при проверке на опасные заразные заболевания или террористов.

Условие, что все вероятные регионы должны содержать часть на самом деле немного сильнее, чем я надеялся: в частом случае соответствие между единственным тестом и одним доверительным интервалом а не между одним тест и все интервалы.Θ01α1α

MånsT
источник
2
+1 Я бы использовал область достоверности вместо интервала достоверности .
1
Спасибо @Procrastinator! Я отредактировал ответ и изменил его на «регион», пока я был на нем. Я в основном работаю с регионами HPD унимодальных постеров, поэтому я склонен думать о доверительных регионах как об интервалах. :)
MånsT
12

Майкл и Фрайхо предположили, что простая проверка, содержалось ли значение интересующего параметра в некоторой вероятной области, является байесовским эквивалентом инвертирования доверительных интервалов. Сначала я немного скептически отнесся к этому, поскольку для меня не было очевидным, что эта процедура действительно привела к Байесовскому тесту (в обычном смысле).

Как выясняется, это так - по крайней мере, если вы готовы принять определенный тип функций потерь. Большое спасибо Zen , который предоставил ссылки на две статьи, которые устанавливают связь между регионами HPD и проверкой гипотез:

Я постараюсь обобщить их здесь, для дальнейшего использования. По аналогии с примером из исходного вопроса я рассмотрю частный случай, когда гипотезы где Θ пространство параметров.

H0:θΘ0={θ0}andH1:θΘ1=ΘΘ0,
Θ

Pereira & Стерн предложил метод для тестирования гипотез говорит без того , чтобы положить априорные вероятности на и & thetas 1Θ0Θ1 .

Пусть обозначает функцию плотности θ и определяем T ( x ) = { θ : π ( θ | x ) > π ( θ 0 | x ) } .π()θ

T(x)={θ:π(θ|x)>π(θ0|x)}.

Это означает, что является областью HPDT(x) с вероятностью .P(θT(x)|x)

Pereira-Стерн тест отвергает , когда Р ( & thetas ; Т ( х ) | х ) является "малой" ( < 0,05 , скажу). Для унимодального заднего, это означает , что & thetas ; 0 находится далеко в хвостах заднего, что делает этот критерий несколько похожего на использование р-значения. Другими словами, Θ 0 отклоняется на уровне 5 % тогда и только тогда, когда он не содержится в области 95 % HPD.Θ0P(θT(x)|x)<0.05θ0Θ05 %95 %

Пусть тестовая функция равна 1, если Θ 0 принята, и 0, если Θ 0 отклонена. Мадруга и др. предложил функцию потерь L ( θ , φ , x ) = { a ( 1 - I ( θ T ( x ) ) , если  φ ( x ) = 0 b + c I ( θ ( T (φ1Θ00Θ0 причемa,b,c>0.

L(θ,φ,x)={a(1I(θT(x)),if φ(x)=0b+cI(θ(T(x)),if φ(x)=1,
a,b,c>0

Минимизация ожидаемых потерь приводит к Pereira-Stern теста , где отвергается , если Р ( & thetas ; Т ( х ) | х ) < ( Ь + с ) / ( + с ) .Θ0P(θT(x)|x)<(b+c)/(a+c).

Пока все хорошо. Pereira-Стерны тесты эквивалентны проверка , является ли θ0 в области HPD, и есть функция потерь, которая генерирует этот тест, что означает, что он основан на теории принятия решений.

Спорным моментом является то, что функция потерь зависит от x . Хотя такие функции потери появлялись в литературе несколько раз, они, похоже, не являются общепринятыми.

Для дальнейшего чтения по этой теме, см. Список статей, в которых цитируется Madruga et al. статья .


Обновление октябрь 2012:

Я не был полностью удовлетворен вышеуказанной функцией потерь, так как ее зависимость от делает процесс принятия решений более субъективным, чем мне бы хотелось. Я потратил еще немного времени на обдумывание этой проблемы и в итоге написал короткую заметку о ней, опубликованную ранее на arXiv .x

Пусть обозначает заднюю квантильную функцию от θ , такую ​​что P ( θ q α ( θ | x ) ) = α . Вместо множеств HPD рассмотрим центральный (равносторонний) интервал ( q α / 2 ( θ | x ) , q 1 - α / 2 ( θ | x ) ) . Тестироватьqα(θ|x)θP(θqα(θ|x))=α(qα/2(θ|x),q1α/2(θ|x)) с использованием этого интервала может быть оправдано в теоретико-решающей структуре без функции потерь, которая зависит от x .Θ0x

Хитрость заключается в том, чтобы переформулировать проблему проверки точечной нулевой гипотезы как задачу с тремя решениями с направленными выводами. Θ 0 затем проверяется как Θ - 1 = { θ : θ < θ 0 }, так и Θ 1 = { θ : θ > θ 0 } .Θ0={θ0}Θ0Θ1={θ:θ<θ0}Θ1={θ:θ>θ0}

Пусть тестовая функция если мы примем Θ i (обратите внимание, что это обозначение противоположно тому, которое использовалось выше!). Оказывается, что при взвешенной 0 - 1 функции потерь L 2 ( θ , φ ) = { 0 , если  θ Θ i  и  φ = i ,φ=iΘi01 тест Байеса, чтобы отклонитьthetas0еслиθ0не находится в центральном интервале.

L2(θ,φ)={0,if θΘi and φ=i,i{1,0,1},α/2,if θΘ0 and φ=0,1,if θΘiΘ0 and φ=i,i{1,1},
Θ0θ0

This seems like a quite reasonable loss function to me. I discuss this loss, the Madruga-Esteves-Wechsler loss and testing using credible sets further in the manuscript on arXiv.

MånsT
источник
2
(I'm marking this as a community wiki)
MånsT
When you say "To arrive at the Pereira-Stern test we must minimize the expected posterior loss", well, actually we do that in any Bayesian decision procedure. The difference here is that the loss function depends on data (as you pointed out), which is not standard. Normaly we have L:{ParameterSpace}×{Actions}R.
Zen
@Zen: Yes, of course, I phrased that wrongly. Thanks for pointing that out. :)
MånsT
3
@MånsT: (+1) This is an interesting answer. I very much respect the fact you chose to mark this as CW in this instance, but I wish you wouldn't have. :-)
cardinal
8

I coincidentally read your arXiv paper prior to coming to this question and already wrote a blog entry on it (scheduled to appear on October, 08). To sum up, I find your construction of theoretical interest, but also think it is too contrived to be recommended, esp. as it does not seem to solve the point-null hypothesis Bayesian testing problem, which traditionally requires to put some prior mass on the point-null parameter value.

To wit, the solution you propose above (in the October update) and as Theorem 2 in your arXiv paper is not a valid test procedure in that φ takes three values, rather than the two values that correspond to accept/reject. Similarly, the loss function you use in Theorem 3 (not reproduced here) amounts to testing a one-sided hypothesis, H0:θθ0, rather than a point-null hypothesis H0:θ=θ0.

My major issue however is that it seems to me that both Theorem 3 and Theorem 4 in your arXiv paper are not valid when H0 is a point-null hypothesis, i.e. when Θ0={θ0}, with no prior mass.

Xi'an
источник
1
Thanks (+1) for your comments! I very much look forward to reading your blog post. :) As you point out, Theorems 3 and 4 are concerned with composite hypotheses only. The 1α/2 in Theorem 2 is a misprint. It should read α/2, in which case φ=0 when α/2<min(P(Θ1),P(Θ1)), which happens when θ0 is in the the credible interval. I'll change this in the arXiv manuscript as soon as possible!
MånsT
You are right (+1!), I was thinking of the inequality the other way! In the arXiv document, the central inequality is written the wrong way. i.e. one should accept H0 iff
Xi'an
That's good to hear :) The updated manuscript (with Thm 2 corrected) will be on arXiv on Monday. I'll make the assumption that Θ0 is not point-null in Thm 4 explicit as well.
MånsT
1
Just make sure to clarify the proof of Theorem 2 in the arXiv document: the displayed inequality is written the wrong way. i.e. one should accept H0 iff P(θΘi|x)>α/2, not the opposite!
Xi'an
3

You can use a credible interval (or HPD region) for Bayesian hypothesis testing. I don't think it is common; though, to be fair I do not see much nor do I use formal Bayesian Hypothesis testing in practice. Bayes factors are occasionally used (and in Robert's "Bayesian Core" somewhat lauded) in hypothesis testing set up.

Fraijo
источник
1
Cheers @Fraijo! Could you perhaps elaborate a bit on how your answer differ from that of Michael Chernick?
MånsT
2
I do not think the use of Bayes factors for testing hypothesis is "occasional", see for example this reference.
@MånsT in his follow up the process Michael describes seems to be a Bayes Factor test. Essentially you create two models with different priors based on your hypothesis and then compare the the probability of the data set based on those priors. The reference Procrasinator posted gives a quick review of this.
Fraijo
1
@Procrastinator I said occasional only because in my industry I see few people using Bayesian methods, let alone using Bayesian methods for testing hypothesis. Personally I use Bayes factors to check my models for sensitivity to the prior, which I suppose is a form of hypothesis testing.
Fraijo
1
@MånsT short answer: no. Setting up a credible interval and finding out if it contains the null hypothesis is the only direct test that is comparable to frequentist hypothesis testing. There are two problems with this method: 1) the obvious fact that you can find multiple regions in some cases (e.g. an HPD versus a symmetric region) and 2) testing a point hypothesis (theta = a) conflicts with the Bayesian ideal of parameters taking distributions (theta ~ P(theta)).
Fraijo
1

A credible region is just a region where the integral of the posterior density over the region is a specified probability e.g. 0.95. One way to form a Bayesian hypothesis test is to see whether or not the null hypothesized value(s) of the parameter(s) fall in the credible region. In this way we can have a similar 1-1 correspondence between hypothesis tests and credible regions just like the frequentists do with confidence intervals and hypothesis tests. But this is not the only way to do hypothesis testing.

Michael R. Chernick
источник
Are this kind of ad hoc Bayesian tests often used in practice?
MånsT
1
@MansT I don't think so. I think that usually Bayesians put prior odds on the null hypothesis being true and then based on the data construct posterior odds. If the posterior odds are storngly against the null hypothesis then it is rejected. I am not the best person to ask though since I do not do Bayesian inference very often.
Michael R. Chernick
2
The test described by Michael is credited to Lindley by Zellner in his book on Bayesian econometrics.
Zen
1
Yes, these kind of tests are certainly sprung from Bayesian ideas, but I'm not sure if they have a solid foundation in Bayesian decision theory. In the latter setting I would expect tests to be derived from a loss function, typically involving a test function.
MånsT
-1

Let me give it how I got it reading Tim's answer.

It is based on the table views with hypothesis (estimated parameter) in columns and observations in the rows.

enter image description here

In the first table, you have col probabilities sum to 1, i.e. they are conditional probabilities, whose condition, getting into the column event is supplied in the bottom row, called 'prior'. In the last table, rows similarly sum to 1 and in the middle you have joint probabilities, i.e. conditional probabilities you find in the first and last table times the probability of the condition, the priors.

The tables basically perform the Bayesian transform: in the first table, you give p.d.f of the observations (rows) in every column, set the prior for this hypothesis (yes, hypothesis column is a pdf of observations under that hypothesis), you do that for every column and table takes it first into the joint probabilites table and, then into the probabilities of your hypothesis, conditioned by observations.

As I have got from Tim's answer (correct me if I am wrong), the Critical Interval approach looks at the first table. That is, once experiment is complete, we know the row of the table (either heads or tails in my example but you may make more complex experiments, like 100 coin flips and get a table with 2^100 rows). Frequentialist scans through its columns, which, as I have said, is a distribution of possible outcomes under condition that hypothesis colds true (e.g. coin is fair in my example), and rejects those hypothesis (columns) that has give very low probability value at the observed row.

Bayesianist first adjust the probabilities, converting cols into rows and looks at table 3, finds the row of the observed outcome. Since it is also a p.d.f, he goes through the experiment outcome row and picks the highest-prob hypethesis until his 95% credibility pocket is full. The rest of hypothesis is rejected.

How do you like it? I am still in the process of learning and graphic seems helpful to me. I belive that I am on the right track since a reputable user gives the same picture, when analyzes the difference of two approaches. I have proposed a graphical view of the mechanics of hypothesis selection.

I encourage everybody to read that Keith last answer but my picture of hypothesis test mechanics can immediately say that frequentist does not look at the other hypothesis when verifies the current one whereas consideration of high credibile hypothesis highly impacts the reception/rejection of other hypotheses in bayesian analisys because if you have a single hypothesis which occurs 95% of times under observed data, you throw all other hypothesis immediately, regardless how well is data fit within them. Let's put the statistical power analysis, which contrast two hypotheses based on their confidence intervals overlap, aside.

But, I seem have spotted the similarity between two approaches: they seem to be connected through P(A | B) > P(A) <=> P(B|A) > P(B) property. Basically, if there is a dependence between A and B then it will show up as correlation in both freq and bayesian tables. So, doing one hypothesis test correlates with the other, they sorta must give the same results. Studying the roots of the correlation, will likely give you the connection between the two. In my question there I actually ask why is the difference instead of absolute correlation?

Little Alien
источник