Они считаются симметричными, потому что довольно часто используется нормальное приближение. Это работает достаточно хорошо, если р лежит около 0,5. binom.test
с другой стороны, сообщает «точные» интервалы Клоппера-Пирсона, основанные на F-распределении ( точные формулы обоих подходов см. здесь ). Если бы мы реализовали интервал Клоппера-Пирсона в R, это было бы что-то вроде (см. Примечание ):
Clopper.Pearson <- function(x, n, conf.level){
alpha <- (1 - conf.level) / 2
QF.l <- qf(1 - alpha, 2*n - 2*x + 2, 2*x)
QF.u <- qf(1 - alpha, 2*x + 2, 2*n - 2*x)
ll <- if (x == 0){
0
} else { x / ( x + (n-x+1)*QF.l ) }
uu <- if (x == 0){
0
} else { (x+1)*QF.u / ( n - x + (x+1)*QF.u ) }
return(c(ll, uu))
}
Как в ссылке, так и в реализации вы видите, что формула для верхнего и нижнего пределов совершенно различна. Единственный случай симметричного доверительного интервала - это когда р = 0,5. Используя формулы из ссылки и учитывая, что в этом случае , легко определить, как это происходит.n = 2 × x
Я лично понял это лучше, глядя на доверительные интервалы, основанные на логистическом подходе. Биномиальные данные обычно моделируются с использованием функции связи logit, определяемой как:
l o g i t ( x ) = log( х1 - х)
Эта функция связи «отображает» термин ошибки в логистической регрессии на нормальное распределение. Как следствие, доверительные интервалы в логистической структуре симметричны вокруг значений логита, во многом как в классической системе линейной регрессии. Логитное преобразование используется именно для того, чтобы можно было использовать всю основанную на нормальности теорию вокруг линейной регрессии.
После выполнения обратного преобразования:
л о г я т- 1( х ) = еИкс1 + еИкс
Вы снова получаете асимметричный интервал. Теперь эти доверительные интервалы фактически смещены. Их охват не тот, который вы ожидаете, особенно на границах биномиального распределения. Тем не менее, в качестве иллюстрации они показывают, почему логично, что биномиальное распределение имеет асимметричные доверительные интервалы.
Пример в R:
logit <- function(x){ log(x/(1-x)) }
inv.logit <- function(x){ exp(x)/(1+exp(x)) }
x <- c(0.2, 0.5, 0.8)
lx <- logit(x)
upper <- lx + 2
lower <- lx - 2
logxtab <- cbind(lx, upper, lower)
logxtab # the confidence intervals are symmetric by construction
xtab <- inv.logit(logxtab)
xtab # back transformation gives asymmetric confidence intervals
примечание : на самом деле R использует бета-дистрибутив, но это полностью эквивалентно и в вычислительном отношении немного более эффективно. Реализация в R, таким образом, отличается от того, что я здесь показываю, но дает точно такой же результат.
Чтобы понять, почему он не должен быть симметричным, подумайте о ситуации, когда и вы получите 9 успехов в 10 испытаниях. Тогда р = 0,9 и 95% ДИ для р является [0,554, 0,997]. Верхний предел не может быть больше 1 , очевидно, поэтому большая часть неопределенности должна падать слева от р .p=0.9 p^=0.9 p p^
источник
В любом случае, вы можете получить все три в R с помощью следующего:
Обратите внимание, что метод "Уилсон" - это тот же доверительный интервал, который используется в prop.test без коррекции непрерывности Йейтса:
См. Здесь бесплатное руководство SPLUS + R Лоры Томпсон, которое сопровождает Категориальный анализ данных Agresti, в котором эти вопросы обсуждаются очень подробно.
источник
Для биномиального распределения существуют симметричные доверительные интервалы: асимметрия нам не навязывается, несмотря на все причины, уже упомянутые. Симметричные интервалы обычно считаются низшими в том, что
Хотя они численно симметричны, они не симметричны по вероятности : то есть их односторонние покрытия отличаются друг от друга. Это - необходимое следствие возможной асимметрии биномиального распределения - суть дела.
Часто одна конечная точка должна быть нереальной (меньше 0 или больше 1), как отмечает @Rob Hyndman.
Сказав это, я подозреваю, что численно симметричные КИ могут обладать некоторыми хорошими свойствами, например стремиться быть короче вероятностно симметричных в некоторых обстоятельствах.
источник
источник
Я знаю, что это было давно, но я думал, что я буду звонить здесь. Учитывая n и p, легко вычислить вероятность конкретного числа успехов напрямую, используя биномиальное распределение. Затем можно изучить распределение, чтобы увидеть, что оно не симметрично. Он будет приближаться к симметрии для больших np и больших n (1-p).
Можно накапливать вероятности в хвостах для вычисления конкретного КИ. Учитывая дискретный характер распределения, для нахождения конкретной вероятности в хвосте (например, 2,5% для 95% ДИ) потребуется интерполяция между количеством успехов. С помощью этого метода можно вычислять CI напрямую без аппроксимации (кроме необходимой интерполяции).
источник