Оценка вероятности в процессе Бернулли путем выборки до 10 отказов: является ли она предвзятой?

15

Предположим, у нас есть процесс Бернулли с вероятностью отказа (который будет мал, скажем, q 0,01 ), из которого мы производим выборку, пока не встретим 10 отказов. Таким образом , мы оцениваем вероятность отказа , как д : = 10 / N , где N представляет собой число выборок.qq0.0110q^:=10/NN

Вопрос : Является ли д смещена оценка по д ? И если так, есть ли способ исправить это?q^q

Я обеспокоен тем, что настаивание на последнем примере является ошибочным смещением оценки.

Бекки
источник
5
Текущие ответы не дают минимальной дисперсии несмещенной оценки . См. Раздел « Выборка и оценка точек» статьи в Википедии об отрицательном биномиальном распределении . (101)/(N1)
А. Уэбб

Ответы:

10

Это правда , что д является предвзятой оценкой ц в том смысле , что E ( Q ) Q , но вы не обязательно должны позволить этому сдерживать вас. Этот точный сценарий может быть использован в качестве критики против идеи, что мы всегда должны использовать объективные оценки, потому что здесь смещение - это скорее артефакт конкретного эксперимента, который мы проводим. Данные выглядят точно так же, как если бы мы выбрали количество образцов заранее, так почему же наши выводы должны измениться?q^qE(q^)q

Интересно, что если бы вы собирали данные таким образом, а затем записывали функцию правдоподобия как в биномиальной (фиксированный размер выборки), так и в отрицательной биномиальной моделях, вы обнаружили бы, что они пропорциональны друг другу. Это означает , что д является лишь обычной оценкой максимального правдоподобия при отрицательной биномиальной модели, которая, конечно, вполне приемлемая оценка.q^

dsaxton
источник
Большой! Похоже (для моих целей) этот уклон не проблема.
Бекки
9

Он не настаивает на том, что последний образец является ошибкой, которая искажает оценку, он принимает обратную величину N

Так что в вашем примере, но Е[10E[N10]=1q. Это близко к сравнению среднего арифметического с гармоническим среднимE[10N]q

Плохая новость заключается в том, что смещение может увеличиваться с уменьшением , но ненамного, если q уже мало. Хорошей новостью является то, что смещение уменьшается по мере увеличения необходимого количества отказов. Кажется, что если вам требуется f сбоев, то смещение ограничено сверху мультипликативным множителем fqqf для малыхq; Вы не хотите такой подход, когда вы останавливаетесь после первого сбоя ff1q

Остановившись после сбоев, при q = 0,01 вы получите E [ N10q=0.01но E[10E[N10]=100, а приq=0,001вы получитеE[NE[10N]0.011097q=0.001но E[10E[N10]=1000. Уклон примерно10E[10N]0.001111 мультипликативный фактор 109

Генри
источник
7

В качестве дополнения к ответу dsaxton, вот некоторые симуляции в R , показывающие распределение выборки д при к = 10 и д 0 = 0,02 :q^k=10q0=0.02

n_replications <- 10000
k <- 10
failure_prob <- 0.02
n_trials <- k + rnbinom(n_replications, size=k, prob=failure_prob)
all(n_trials >= k)  # Sanity check, cannot have 10 failures in < 10 trials

estimated_failure_probability <- k / n_trials
histogram_breaks <- seq(0, max(estimated_failure_probability) + 0.001, 0.001)
## png("estimated_failure_probability.png")
hist(estimated_failure_probability, breaks=histogram_breaks)
abline(v=failure_prob, col="red", lty=2, lwd=2)  # True failure probability in red
## dev.off()

mean(estimated_failure_probability)  # Around 0.022
sd(estimated_failure_probability)
t.test(x=estimated_failure_probability, mu=failure_prob)  # Interval around [0.0220, 0.0223]

Похоже , что , что является довольно небольшим уклоном по отношению к изменчивости в д .E[q^]0.022q^

histogram of q_hat

Адриан
источник
1
Это действительно полезно. На этом уровне мне не о чем беспокоиться.
Бекки
2
Вы можете написать эту симуляцию более кратко, как10+rnbinom(10000,10,0.02)
А. Вебб
@ A.Webb спасибо, это хороший момент. Я действительно изобретал велосипед. Мне нужно прочитать? Rnbinom и тогда я отредактирую свой пост
Адриан
1
Это было бы 10/(10+rnbinom(10000,10,0.02)). Параметризация определяется количеством успехов / неудач, а не общим количеством испытаний, поэтому вам придется добавить k = 10 обратно. Обратите внимание, что объективная оценка будет на 9/(9+rnbinom(10000,10,0.02))один меньше в числителе и знаменателе.
А. Уэбб