Асимптотическая нормальность статистики порядка распределений с тяжелыми хвостами

9

Предыстория: у меня есть пример, который я хочу смоделировать с дистрибутивом с тяжелыми хвостами. У меня есть некоторые крайние значения, такие, что разброс наблюдений относительно велик. Моя идея состояла в том, чтобы смоделировать это с помощью обобщенного распределения Парето, и я это сделал. Теперь квантиль 0,975 моих эмпирических данных (около 100 точек данных) ниже квантиля 0,975 в обобщенном распределении Парето, которое я подгонял к своим данным. Теперь, подумал я, есть ли способ проверить, стоит ли беспокоиться об этой разнице?

Мы знаем, что асимптотическое распределение квантилей дается как:

асимптотическая нормальность квантилей

Поэтому я подумал, что было бы неплохо развлечь мое любопытство, пытаясь построить 95% -ые доверительные полосы вокруг квантиля 0,975 обобщенного распределения Парето с теми же параметрами, которые я получил из подбора моих данных.

GPD

Как вы видите, мы работаем с некоторыми крайними значениями здесь. А так как разброс очень велик, функция плотности имеет чрезвычайно малые значения, поэтому доверительные полосы достигают порядка используя дисперсию формулы асимптотической нормальности, приведенной выше:±1012

±1.960.9750.025n(fGPD(q0.975))2

Таким образом, это не имеет никакого смысла. У меня есть распределение только с положительными результатами, а доверительные интервалы включают отрицательные значения. Так что здесь что-то происходит. Если рассчитать полосы вокруг 0,5 квантиля, полосы не что огромные, но по- прежнему огромны.

N(1,1)n=100N(1,1)

    ################################################
# Test at the 0.975 quantile
################################################

#normal(1,1)

#find 0.975 quantile
q_norm<-qnorm(0.975, mean=1, sd=1)
#find density value at 97.5 quantile:
f_norm<-dnorm(q_norm, mean=1, sd=1)
#confidence bands absolute value:
band=1.96*sqrt((0.975*0.025)/(100*(f_norm)^2))
u=q_norm+band
l=q_norm-band

hit<-1:10000
for(i in 1:10000){
  d<-rnorm(n=100, mean=1, sd=1)
  dq<-quantile(d, probs=0.975)

  if(dq[[1]]>=l & dq[[1]]<=u) {hit[i]=1} else {hit[i]=0} 

}
sum(hit)/10000

#################################################################3
# Test at the 0.5 quantile  
#################################################################
#using lower quantile:

#normal(1,1)

#find 0.7 quantile
q_norm<-qnorm(0.7, mean=1, sd=1)
#find density value at 0.7 quantile:
f_norm<-dnorm(q_norm, mean=1, sd=1)
#confidence bands absolute value:
band=1.96*sqrt((0.7*0.3)/(100*(f_norm)^2))
u=q_norm+band
l=q_norm-band

hit<-1:10000
for(i in 1:10000){
  d<-rnorm(n=100, mean=1, sd=1)
  dq<-quantile(d, probs=0.7)

  if(dq[[1]]>=l & dq[[1]]<=u) {hit[i]=1} else {hit[i]=0} 

} 
sum(hit)/10000

σ=1σ=2

РЕДАКТИРОВАТЬ 2 : Я убираю то, что я утверждал в первом редактировании выше, как указано в комментариях полезным джентльменом. Похоже, что эти CI хороши для нормального распределения.

Является ли эта асимптотическая нормальность статистики порядка просто очень плохой мерой для использования, если кто-то хочет проверить, возможен ли какой-либо наблюдаемый квантиль с учетом определенного распределения кандидатов?

Интуитивно, мне кажется, что существует связь между дисперсией распределения (который, по нашему мнению, создал данные, или в моем примере R, который, как мы знаем, создал данные) и количеством наблюдений. Если у вас есть 1000 наблюдений и огромная разница, эти полосы плохие. Если иметь 1000 наблюдений и небольшую дисперсию, эти полосы могут иметь смысл.

Кто-нибудь хочет прояснить это для меня?

Erosennin
источник
2
Ваша полоса основана на дисперсии асимптотического нормального распределения, но должна основываться на стандартном отклонении асимптотического нормального распределения (полоса = 1,96 * sqrt ((0,975 * 0,025) / (100 * (f_norm) ^ 2)), и аналогично для обобщенного Pareto dist'n.) Попробуйте вместо этого и посмотрите, что произойдет.
Jbowman
@jbowman спасибо, что указал на это! Я исправлю это!
Еросеннин
@jbowman, который делает группу меньше, и в примере с моим R-кодом, который на самом деле дает несколько меньше хитов. Это была еще одна ошибка, которая сделала неправильные вычисления, но я исправил это сейчас. Вы привели меня к этому, так что я очень ценю это! Меньшие полосы в случае ВВП - это очень хорошая новость, но я боюсь, что они все еще настолько огромны, что их невозможно использовать. Я до сих пор не вижу другого вывода, кроме того, что размер выборки отношения и дисперсия должны быть большими, а не только размер выборки.
Еросеннин
(n)band = 1.96*sqrt((0.975*0.025)/(100*n*(f_norm)^2))
1
σ=2

Ответы:

3

Я предполагаю, что ваше происхождение происходит от чего-то вроде этого на этой странице .

У меня есть распределение только с положительными результатами, а доверительные интервалы включают отрицательные значения.

Хорошо, учитывая нормальное приближение, которое имеет смысл. Ничто не мешает нормальному приближению дать вам отрицательные значения, поэтому это плохое приближение для ограниченного значения, когда размер выборки мал и / или дисперсия велика. Если вы увеличите размер выборки, то интервалы будут сокращаться, поскольку размер выборки находится в знаменателе выражения для ширины интервала. Дисперсия входит в проблему через плотность: для того же среднего значения, более высокая дисперсия будет иметь различную плотность, выше на полях и ниже около центра. Более низкая плотность означает более широкий доверительный интервал, поскольку плотность находится в знаменателе выражения.

nqnq(1q)j=nq1.96nq(1q)k=nq1.96nq(1q)k>nj<1

В следующей переписке вашего кода я построил доверительный интервал для эмпирических данных и проверил, попадает ли теоретический квантиль в него. Это имеет больше смысла для меня, потому что квантиль наблюдаемого набора данных является случайной величиной. Покрытие для n> 1000 составляет ~ 0,95. Для n = 100 оно хуже при 0,85, но этого следует ожидать для квантилей вблизи хвостов с небольшими размерами выборки.

#find 0.975 quantile
q <- 0.975
q_norm <- qnorm(q, mean=1, sd=1)

#confidence bands absolute value (note depends on sample size)
n <- 10000
band <- 1.96 * sqrt(n * q * (1 - q))

hit<-1:10000
for(i in 1:10000){
  d<-sort(rnorm(n, mean=1, sd=1))
  dq<-quantile(d, probs=q)
  u <- ceiling(n * q + band)
  l <- ceiling(n * q - band)
  if (u > n) u = n
  if (l < 1) l = 1
  if(q_norm>=d[l] & q_norm<=d[u]) {hit[i]=1} else {hit[i]=0} 

}
sum(hit)/10000

Что касается определения того, какой размер выборки является «достаточно большим», то чем больше, тем лучше. Является ли какой-либо конкретный образец «достаточно большим», сильно зависит от имеющейся проблемы и от того, насколько вы суетливы относительно таких вещей, как охват ваших доверительных границ.

atiretoo - восстановить монику
источник
Спасибо за помощь! Я указал, что не вижу, как существует какая-либо абсолютная «большая» выборка, и нужно учитывать разницу. Мне интересно, как это относится к моему способу построения КИ, но также и вообще. Что касается деривации, вы можете, например, посмотреть здесь: math.mcgill.ca/~dstephens/OldCourses/556-2006/… Построенные мной КИ следуют из примера в этой ссылке. Вы пишете, что «я построил доверительный предел на эмпирических данных ...», и это имеет больше смысла для вас. Не могли бы вы рассказать подробнее об этом и о моих CI?
Еросеннин
Ах, да, у вас была правильная деривационная ссылка. Извини, я виноват.
Еросеннин
Хорошо, я снова отредактировал его, чтобы правильно описать, как дисперсия распределения влияет на используемое приближение, и немного подробнее обсудил, что означает «большая» выборка. Ваш КИ сосредоточен на теоретическом значении, а мой - на эмпирическом. Я думаю, что для сравнения эмпирического квантиля с теоретическим интервал должен быть построен на эмпирическом квантиле. Кроме того, использованное мною приближение делает одно менее «нормальное» приближение, потому что нет смысла начинать с центральной предельной теоремы.
atiretoo - восстановить монику
Я ценю усилия, возможно, мой вопрос может быть более ясным. Я уже понял, как плотность и размер выборки влияют на дисперсию, это было моей точкой зрения в первую очередь. Но, опять же, мой плохой, я мог бы быть более ясным. Я считаю, что это «асимптотика» должна быть заменена чем-то, что учитывает дисперсию. Ну, вы также сосредоточили свои КИ вокруг теоретических значений. n * q - это именно ваша теоретическая ценность. Создавая свои группы, вы, по сути, сделали то же самое, что и я, только другим способом.
Еросеннин