Доверительный интервал для отбора проб Бернулли

42

У меня есть случайная выборка случайных величин Бернулли , где X i - iidrv и P ( X i = 1 ) = p , а p - неизвестный параметр.X1...XNXiP(Xi=1)=pp

Очевидно, что можно найти оценку для : р : = ( X 1 + + Х N ) / N .pp^:=(X1++XN)/N

У меня вопрос, как я могу построить доверительный интервал для ?p

амеба говорит восстановить монику
источник
2
В Википедии есть подробности о том, как рассчитать доверительные интервалы для отбора проб Бернулли .

Ответы:

52
  • Если в , не близко 1 или 0 , и размер выборки п достаточно велико (т.е. п р > 5 и п ( 1 - р ) > 5 , доверительный интервал может быть оценен с помощью нормального распределения и доверительный интервал, построенный таким образом:p^10nnp^>5n(1p^)>5

    p^±z1α/2p^(1p^)n
  • Если р = 0 и п > 30 , то 95 % доверительный интервал составляет приблизительно [ 0 , 3p^=0n>3095%(Javanovic and Levy, 1997); обратное имеет место при р =1. В справочном материале также обсуждается использованиеn+1иn+b(позднее для включения предшествующей информации).[0,3n] p^=1n+1n+b

  • np^

R обеспечивает функции , binconf {Hmisc}и binom.confint {binom}которые могут быть использованы следующим образом:

set.seed(0)
p <- runif(1,0,1)
X <- sample(c(0,1), size = 100, replace = TRUE, prob = c(1-p, p))
library(Hmisc)
binconf(sum(X), length(X), alpha = 0.05, method = 'all')
library(binom)
binom.confint(sum(X), length(X), conf.level = 0.95, method = 'all')

Агрести, Алан; Коулл, Брент А. (1998). «Приближенное лучше, чем« точное »для интервальной оценки биномиальных пропорций». Американский статистик 52: 119–126.

Йованович, Б.Д. и П.С. Леви, 1997. Взгляд на правило трех. Американский статистик Vol. 51, № 2, с. 137-139

Росс, ТД (2003). «Точные доверительные интервалы для оценки биномиальной пропорции и скорости Пуассона». Компьютеры в биологии и медицине 33: 509–531.

Дэвид Лебауэр
источник
3
(+1) Хороший ответ. Я думаю, что в будущем это станет отправной точкой для подобных вопросов. Однако кросс-постинг необычен; на самом деле, я считаю, что это не одобряется, потому что это портит многие аспекты системы обратной связи / ссылок / потоков / комментирования. Пожалуйста, рассмотрите возможность удаления одной из копий и замены ее ссылкой в ​​комментарии.
whuber
@whuber спасибо за отзыв. Я удалил другую копию.
Дэвид Лебауэр
В первой формуле, что такое z1 и альфа?
Cirdec
z1α/21α/2α
3/n
7

Максимальные правдоподобные доверительные интервалы

p

β^0=log(p^/(1p^))

αβ0

CI(β0)α=β^0±Zα/21/(np^(1p^)

p

CI(p)α=1/(1+exp(CI(β0)α)

Этот CI имеет дополнительное преимущество, что пропорции лежат в интервале между 0 или 1, и CI всегда уже нормального интервала, хотя и имеет правильный уровень. Вы можете легко получить это в R, указав:

set.seed(123)
y <- rbinom(100, 1, 0.35)
plogis(confint(glm(y ~ 1, family=binomial)))

    2.5 %    97.5 % 
0.2795322 0.4670450 

Точные биномиальные доверительные интервалы

Y=np^(n,p)p^

CIα=(Fp^1(0.025),Fp^1(0.975))

p

qbinom(p = c(0.025, 0.975), size = length(y), prob = mean(y))/length(y)
[1] 0.28 0.47

Медианные несмещенные доверительные интервалы

pp1α/2

p1α/2:P(Y=0)/2+P(Y>y)>0.975

Это также вычислительная процедура.

set.seed(12345)
y <- rbinom(100, 1, 0.01) ## all 0
cil <- 0
mupfun <- function(p) {
  0.5*dbinom(0, 100, p) + 
    pbinom(1, 100, p, lower.tail = F) - 
    0.975
} ## for y=0 successes out of n=100 trials
ciu <- uniroot(mupfun, c(0, 1))$root
c(cil, ciu)

[1] 0.00000000 0.05357998 ## includes the 0.01 actual probability

Последние два метода реализованы в epitoolsпакете в R.

Adamo
источник