Как получить доверительный интервал для процентиля?

15

У меня есть куча необработанных значений данных в долларах, и я хочу найти доверительный интервал для процентиля этих данных. Есть ли формула для такого доверительного интервала?

Graphth
источник

Ответы:

20

Этот вопрос, который охватывает общую ситуацию, заслуживает простого, не приблизительного ответа. К счастью, есть один.

Предположим, что являются независимыми значениями от неизвестного распределения F , в q- м квантиле которого я буду писать F - 1 ( q ) . Это означает, что у каждого X i есть шанс (по крайней мере) q быть меньше или равным F - 1 ( q ) . Следовательно, число X i, меньшее или равное F - 1 ( q ), имеет Бином ( nX1,,XnFqthF1(q)XiqF1(q)XiF1(q) распределение.(n,q)

Мотивированные этим простым соображением, Джеральд Хан и Уильям Микер в своем справочнике « Статистические интервалы» (Wiley 1991) пишут

Двусторонний консервативный доверительный интервал распределения для F - 1 ( q ) получается ... как [ X ( l ) , X ( u ) ]100(1α)%F1(q)[X(l),X(u)]

где - статистика порядка выборки. Они продолжают говоритьX(1)X(2)X(n)

Можно выбрать целые числа симметрично (или почти симметрично) вокруг q ( n + 1 ) и как можно ближе друг к другу при условии, что B ( u - 1 ; n , q ) - B ( l -) 1 ; n , q ) 1 - α .0lunq(n+1)

(1)B(u1;n,q)B(l1;n,q)1α.

Выражение слева - это вероятность того, что биномиальная переменная имеет одно из значений { l , l + 1 , , u - 1 } . По- видимому, это вероятность того, что число значений данных X я попадающий в нижних 100 кв % распределениях не является ни слишком мало (меньше , чем л ) , ни слишком большая ( U или выше).(n,q){l,l+1,,u1}Xi100q%lu

Хан и Микер следуют некоторыми полезными замечаниями, которые я процитирую.

Предыдущий интервал является консервативным, поскольку фактический уровень достоверности, заданный левой частью уравнения , превышает указанное значение 1 - α . ...(1)1α

Иногда невозможно построить статистический интервал без распределения, который имеет хотя бы желаемый уровень достоверности. Эта проблема особенно остра при оценке процентилей в хвосте распределения по небольшой выборке. ... В некоторых случаях аналитик может справиться с этой проблемой, выбрав и u несимметрично. Другой альтернативой может быть использование пониженного уровня достоверности.lu


n=100100(1α)=95%q=0.90l=85u=97

Рисунок, показывающий биномиальное распределение (100, 0,90)

95.3%95%

81

1.491.662.0524.3324.7225.4625.6725.7726.6428.2828.2829.0729.1631.1431.8333.2437.3253.4358.11

85th24.3397th33.24[24.33,33.24]

95%90th33.249710090th24.338490th90th


lulu2R

Среднее имитационное покрытие составило 0,9503; ожидаемое покрытие 0,9523

Соглашение между симуляцией и ожиданием превосходно.

#
# Near-symmetric distribution-free confidence interval for a quantile `q`.
# Returns indexes into the order statistics.
#
quantile.CI <- function(n, q, alpha=0.05) {
  #
  # Search over a small range of upper and lower order statistics for the 
  # closest coverage to 1-alpha (but not less than it, if possible).
  #
  u <- qbinom(1-alpha/2, n, q) + (-2:2) + 1
  l <- qbinom(alpha/2, n, q) + (-2:2)
  u[u > n] <- Inf
  l[l < 0] <- -Inf
  coverage <- outer(l, u, function(a,b) pbinom(b-1,n,q) - pbinom(a-1,n,q))
  if (max(coverage) < 1-alpha) i <- which(coverage==max(coverage)) else
    i <- which(coverage == min(coverage[coverage >= 1-alpha]))
  i <- i[1]
  #
  # Return the order statistics and the actual coverage.
  #
  u <- rep(u, each=5)[i]
  l <- rep(l, 5)[i]
  return(list(Interval=c(l,u), Coverage=coverage[i]))
}
#
# Example: test coverage via simulation.
#
n <- 100      # Sample size
q <- 0.90     # Percentile
#
# You only have to compute the order statistics once for any given (n,q).
#
lu <- quantile.CI(n, q)$Interval
#
# Generate many random samples from a known distribution and compute 
# CIs from those samples.
#
set.seed(17)
n.sim <- 1e4
index <- function(x, i) ifelse(i==Inf, Inf, ifelse(i==-Inf, -Inf, x[i]))
sim <- replicate(n.sim, index(sort(rnorm(n)), lu))
#
# Compute the proportion of those intervals that cover the percentile.
#
F.q <- qnorm(q)
covers <- sim[1, ] <= F.q & F.q <= sim[2, ]
#
# Report the result.
#
message("Simulation mean coverage was ", signif(mean(covers), 4), 
        "; expected coverage is ", signif(quantile.CI(n,q)$Coverage, 4))
Whuber
источник
4

отвлечение

τqτXFX1(τ)q^τ=F^1(τ)

n(q^τqτ)

Во-первых, нам нужно асимптотическое распределение эмпирического cdf.

F^(x)=1n1{Xi<x}1{Xi<x}P(Xi<x)=F(x)F(x)(1F(x))

n(F^(x)F(x))N(0,F(x)(1F(x)))(1)

Теперь, поскольку инверсия является непрерывной функцией, мы можем использовать дельта-метод.

n(y¯μy)N(0,σ2)g()n(g(y¯)g(μy))N(0,σ2(g(μy))2)

x=qτg()=F1()

n(F1(F^(qτ))F1(F(qτ)))=n(q^τqτ)

F1(F^(qτ))F^1(F^(qτ))=q^τ

Теперь примените дельта-метод, упомянутый выше.

ddxF1(x)=1f(F1(x))

n(q^τqτ)N(0,F(qτ)(1F(qτ))f(F1(F(qτ)))2)=N(0,F(qτ)(1F(qτ))f(qτ)2)

Затем, чтобы построить доверительный интервал, нам нужно вычислить стандартную ошибку, подключив выборочные аналоги каждого из членов в дисперсии выше:

Результат

se(q^τ)=F^(q^τ)(1F^(q^τ))nf^(q^τ)2= τ(1τ)nf^(q^τ)2

CI0.95(q^τ)=q^τ±1.96se(q^τ)

X

bmciv
источник
1
Не могли бы вы дополнить свой ответ содержанием из связанной статьи? Ссылки могут не работать вечно, и тогда этот ответ станет менее полезным
Энди
1
В чем преимущество этого асимптотического результата, основанного на оценках плотности, по сравнению со свободным распределением, основанным на биномиальном распределении?
Майкл М
Это все еще основано на статье, на которую вы ссылались изначально ?
Ник Стаунер
Да, я должен добавить эту ссылку обратно? Я думаю, что это хорошо известный результат. Я видел это в классе раньше, и это не трудно найти с помощью Google. В таком случае, лучше ли связать его или напечатать, или оба?
bmciv
Я бы сказал и то, и другое, что вы должны отредактировать его обратно, если это будет процитировано / получено полностью из него для правильного указания авторства. В противном случае это может не иметь значения, редактируете ли вы его, но в целом политика Stack Exchange состоит в том, чтобы не давать ответы, содержащие только ссылки, чтобы избежать гниения ссылок и в принципе (идея заключается в том, чтобы быть независимым хранилищем, а не индексом ссылок - Я не уверен, сколько из этого сценария больше, чем воображаемый "скользкий склон").
Ник Стаунер