Как получить доверительный интервал для процентиля?

У меня есть куча необработанных значений данных в долларах, и я хочу найти доверительный интервал для процентиля этих данных. Есть ли формула для такого доверительного интервала?

confidence-interval quantiles tolerance-interval Graphth
источник

Ответы:

Этот вопрос, который охватывает общую ситуацию, заслуживает простого, не приблизительного ответа. К счастью, есть один.

Предположим, что являются независимыми значениями от неизвестного распределения , в квантиле которого я буду писать . Это означает, что у каждого есть шанс (по крайней мере) быть меньше или равным . Следовательно, число меньшее или равное имеет Бином $X_1, \ldots, X_n$ $F$ $q^\text{th}$ $F^{-1}(q)$ $X_i$ $q$ $F^{-1}(q)$ $X_i$ $F^{-1}(q)$ распределение. $(n,q)$

Мотивированные этим простым соображением, Джеральд Хан и Уильям Микер в своем справочнике « Статистические интервалы» (Wiley 1991) пишут

Двусторонний консервативный доверительный интервал распределения для получается ... как $100(1-\alpha)\%$ $F^{-1}(q)$ $[X_{(l)}, X_{(u)}]$

где - статистика порядка выборки. Они продолжают говорить $X_{(1)}\le X_{(2)}\le \cdots \le X_{(n)}$

Можно выбрать целые числа симметрично (или почти симметрично) вокруг и как можно ближе друг к другу при условии, что $0 \le l \le u \le n$ $q(n+1)$
$\begin{matrix} (1) & B (u - 1; n, q) - B (l - 1; n, q) \geq 1 - α . \end{matrix}$ $B(u-1;n,q) - B(l-1;n,q) \ge 1-\alpha.\tag{1}$

Выражение слева - это вероятность того, что биномиальная переменная имеет одно из значений . По- видимому, это вероятность того, что число значений данных попадающий в нижних распределениях не является ни слишком мало (меньше , чем ) , ни слишком большая ( или выше). $(n,q)$ $\{l, l+1, \ldots, u-1\}$ $X_i$ $100q\%$ $l$ $u$

Хан и Микер следуют некоторыми полезными замечаниями, которые я процитирую.

Предыдущий интервал является консервативным, поскольку фактический уровень достоверности, заданный левой частью уравнения , превышает указанное значение . ... $(1)$ $1-\alpha$

Иногда невозможно построить статистический интервал без распределения, который имеет хотя бы желаемый уровень достоверности. Эта проблема особенно остра при оценке процентилей в хвосте распределения по небольшой выборке. ... В некоторых случаях аналитик может справиться с этой проблемой, выбрав и несимметрично. Другой альтернативой может быть использование пониженного уровня достоверности. $l$ $u$

$n=100$ $100(1-\alpha)=95\%$ $q=0.90$ $l=85$ $u=97$

$95.3\%$ $95\%$

$81$

\begin{matrix} 1.49 & 1.66 & 2.05 & \dots & 24.33 & 24.72 & 25.46 & 25.67 & 25.77 & 26.64 \\ 28.28 & 28.28 & 29.07 & 29.16 & 31.14 & 31.83 & 33.24 & 37.32 & 53.43 & 58.11 \end{matrix}

$\matrix{ 1.49&1.66&2.05&\ldots&\mathbf {24.33}&24.72&25.46&25.67&25.77&26.64\\ 28.28&28.28&29.07&29.16&31.14&31.83&\mathbf{33.24}&37.32&53.43&58.11}$

$85^\text{th}$ $24.33$ $97^\text{th}$ $33.24$ $[24.33, 33.24]$

$95\%$ $90^\text{th}$ $33.24$ $97$ $100$ $90^\text{th}$ $24.33$ $84$ $90^\text{th}$ $90^\text{th}$

$l$ $u$ $l$ $u$ $2$ R

Среднее имитационное покрытие составило 0,9503; ожидаемое покрытие 0,9523

Соглашение между симуляцией и ожиданием превосходно.

#
# Near-symmetric distribution-free confidence interval for a quantile `q`.
# Returns indexes into the order statistics.
#
quantile.CI <- function(n, q, alpha=0.05) {
  #
  # Search over a small range of upper and lower order statistics for the 
  # closest coverage to 1-alpha (but not less than it, if possible).
  #
  u <- qbinom(1-alpha/2, n, q) + (-2:2) + 1
  l <- qbinom(alpha/2, n, q) + (-2:2)
  u[u > n] <- Inf
  l[l < 0] <- -Inf
  coverage <- outer(l, u, function(a,b) pbinom(b-1,n,q) - pbinom(a-1,n,q))
  if (max(coverage) < 1-alpha) i <- which(coverage==max(coverage)) else
    i <- which(coverage == min(coverage[coverage >= 1-alpha]))
  i <- i[1]
  #
  # Return the order statistics and the actual coverage.
  #
  u <- rep(u, each=5)[i]
  l <- rep(l, 5)[i]
  return(list(Interval=c(l,u), Coverage=coverage[i]))
}
#
# Example: test coverage via simulation.
#
n <- 100      # Sample size
q <- 0.90     # Percentile
#
# You only have to compute the order statistics once for any given (n,q).
#
lu <- quantile.CI(n, q)$Interval
#
# Generate many random samples from a known distribution and compute 
# CIs from those samples.
#
set.seed(17)
n.sim <- 1e4
index <- function(x, i) ifelse(i==Inf, Inf, ifelse(i==-Inf, -Inf, x[i]))
sim <- replicate(n.sim, index(sort(rnorm(n)), lu))
#
# Compute the proportion of those intervals that cover the percentile.
#
F.q <- qnorm(q)
covers <- sim[1, ] <= F.q & F.q <= sim[2, ]
#
# Report the result.
#
message("Simulation mean coverage was ", signif(mean(covers), 4), 
        "; expected coverage is ", signif(quantile.CI(n,q)$Coverage, 4))

Whuber
источник

отвлечение

$\tau$ $q_\tau$ $X$ $F_X^{-1}(\tau)$ $\hat{q}_\tau = \hat{F}^{-1}(\tau)$

$\sqrt{n}(\hat{q}_\tau - q_\tau)$

Во-первых, нам нужно асимптотическое распределение эмпирического cdf.

$\hat{F}(x) = \frac{1}{n} \sum 1\{X_i < x\}$ $1\{X_i < x\}$ $P(X_i < x) = F(x)$ $F(x)(1-F(x))$

$\sqrt{n}(\hat{F}(x) - F(x)) \rightarrow N(0, F(x)(1-F(x))) \qquad (1)$

Теперь, поскольку инверсия является непрерывной функцией, мы можем использовать дельта-метод.

$\sqrt{n}(\overline{y} - \mu_y) \rightarrow N(0,\sigma^2)$ $g(\cdot)$ $\sqrt{n}(g(\overline{y}) - g(\mu_y)) \rightarrow N(0, \sigma^2 (g'(\mu_y))^2)$

$x=q_\tau$ $g(\cdot) = F^{-1}(\cdot)$

$\sqrt{n}(F^{-1}(\hat{F}(q_\tau)) - F^{-1}(F(q_\tau))) = \sqrt{n}(\hat{q}_\tau - q_\tau)$

$F^{-1}(\hat{F}(q_\tau)) \neq \hat{F}^{-1}(\hat{F}(q_\tau)) = \hat{q}_\tau$

Теперь примените дельта-метод, упомянутый выше.

$\frac{\textrm{d}}{\textrm{d}x} F^{-1}(x) = \frac{1}{f(F^{-1}(x))}$

$\sqrt{n}(\hat{q}_\tau - q_\tau) \rightarrow N\left(0, \frac{F(q_\tau)(1-F(q_\tau))}{f(F^{-1}(F(q_\tau)))^2}\right) = N\left(0, \frac{F(q_\tau)(1-F(q_\tau))}{f(q_\tau)^2}\right)$

Затем, чтобы построить доверительный интервал, нам нужно вычислить стандартную ошибку, подключив выборочные аналоги каждого из членов в дисперсии выше:

Результат

$se(\hat{q}_\tau) = \sqrt{\frac{\hat{F}(\hat{q}_\tau)(1-\hat{F}(\hat{q}_\tau))}{n \hat{f}(\hat{q}_\tau)^2}} =$ $\sqrt{\frac{\tau (1 - \tau)}{n \hat{f}(\hat{q}_\tau)^2}}$

$CI_{0.95}(\hat{q}_\tau) = \hat{q}_\tau \pm 1.96 se(\hat{q}_\tau)$

$X$

bmciv
источник

Не могли бы вы дополнить свой ответ содержанием из связанной статьи? Ссылки могут не работать вечно, и тогда этот ответ станет менее полезным

Энди

В чем преимущество этого асимптотического результата, основанного на оценках плотности, по сравнению со свободным распределением, основанным на биномиальном распределении?

Майкл М

Это все еще основано на статье, на которую вы ссылались изначально ?

Ник Стаунер

Да, я должен добавить эту ссылку обратно? Я думаю, что это хорошо известный результат. Я видел это в классе раньше, и это не трудно найти с помощью Google. В таком случае, лучше ли связать его или напечатать, или оба?

bmciv

Я бы сказал и то, и другое, что вы должны отредактировать его обратно, если это будет процитировано / получено полностью из него для правильного указания авторства. В противном случае это может не иметь значения, редактируете ли вы его, но в целом политика Stack Exchange состоит в том, чтобы не давать ответы, содержащие только ссылки, чтобы избежать гниения ссылок и в принципе (идея заключается в том, чтобы быть независимым хранилищем, а не индексом ссылок - Я не уверен, сколько из этого сценария больше, чем воображаемый "скользкий склон").

Ник Стаунер