Я хотел сделать демонстрацию класса, где я сравниваю интервал t с интервалом начальной загрузки и вычисляю вероятность охвата обоих. Я хотел, чтобы данные поступали из искаженного дистрибутива, поэтому я решил сгенерировать данные в exp(rnorm(10, 0, 2)) + 1
виде выборки размером 10 из смещенного логнормаляра. Я написал сценарий, чтобы нарисовать 1000 образцов и рассчитать для каждого образца 95-процентный интервал и 95-процентный интервал начальной загрузки на основе 1000 повторностей.
Когда я запускаю скрипт, оба метода дают очень похожие интервалы, и оба имеют вероятность покрытия 50-60%. Я был удивлен, потому что я думал, что интервал начальной загрузки будет лучше.
Мой вопрос, есть ли у меня
- ошиблись в коде?
- ошиблись в расчете интервалов?
- допустили ошибку, ожидая, что интервал начальной загрузки будет иметь лучшие свойства покрытия?
Кроме того, есть ли способ построить более надежный КИ в этой ситуации?
tCI.total <- 0
bootCI.total <- 0
m <- 10 # sample size
true.mean <- exp(2) + 1
for (i in 1:1000){
samp <- exp(rnorm(m,0,2)) + 1
tCI <- mean(samp) + c(1,-1)*qt(0.025,df=9)*sd(samp)/sqrt(10)
boot.means <- rep(0,1000)
for (j in 1:1000) boot.means[j] <- mean(sample(samp,m,replace=T))
bootCI <- sort(boot.means)[c(0.025*length(boot.means), 0.975*length(boot.means))]
if (true.mean > min(tCI) & true.mean < max(tCI)) tCI.total <- tCI.total + 1
if (true.mean > min(bootCI) & true.mean < max(bootCI)) bootCI.total <- bootCI.total + 1
}
tCI.total/1000 # estimate of t interval coverage probability
bootCI.total/1000 # estimate of bootstrap interval coverage probability
источник
Ответы:
Диагностика и методы начальной загрузки Canto, Davison, Hinkley & Ventura (2006) , по-видимому, являются логической отправной точкой. Они обсуждают несколько способов, с помощью которых бутстрап может сломаться, и, что более важно, предлагают диагностику и возможные способы устранения:
Я не вижу проблемы с 1, 2 и 4 в этой ситуации. Давайте посмотрим на 3. Как отмечает @Ben Ogorek (хотя я согласен с @Glen_b в том, что обсуждение нормальности может быть красной сельдью), валидность начальной загрузки зависит от стержня интересующей нас статистики.
Раздел 4 в Канти и соавт. предлагает выполнить повторную выборку внутри выборки, чтобы получить меру смещения и дисперсии для оценки параметра в каждой начальной загрузке . Вот код для репликации формул из р. 15 статьи:
Обратите внимание на масштаб журналов - без журналов это еще более вопиюще. Мы хорошо видим, как дисперсия оценки среднего значения при начальной загрузке увеличивается со средним по выборке при начальной загрузке. Для меня это выглядит как достаточное количество курящего пистолета, чтобы обвинить в непивотности как виновника в покрытии с низким доверительным интервалом.
Тем не менее, я с радостью признаю, что можно было следить за многими способами. Например, мы могли бы посмотреть, зависит ли доверительный интервал от конкретной реплики начальной загрузки от истинного среднего значения от среднего значения конкретной реплики.
Что касается средств защиты, Canty et al. здесь обсуждаются преобразования, и на ум приходят логарифмы (например, начальная загрузка и построение доверительных интервалов не для среднего значения, а для среднего значения зарегистрированных данных), но я не мог заставить его работать.
Canty et al. Продолжайте обсуждать, как можно уменьшить как количество внутренних загрузчиков, так и оставшийся шум путем выборки и сглаживания важности, а также добавить доверительные полосы на сводные графики.
Это может быть забавный дипломный проект для умного студента. Я был бы признателен за любые указания, где я ошибся, а также любую другую литературу. И я позволю себе добавить
diagnostic
тег к этому вопросу.источник
Затем я подумал немного больше обо всей установке. Имеет ли всего 10 наблюдений и крайне искаженное распределение, тогда не является ли в принципе невозможным непараметрическая оценка среднего значения, не говоря уже о построении доверительных интервалов с правильным охватом?
источник
Расчеты были правильными, я перепроверил с известным пакетом загрузки . Кроме того, я добавил BCa-интервал (от Efron), исправленную смещения версию интервала начальной загрузки:
Я предполагаю, что интервалы будут намного лучше, если исходный размер выборки будет больше 10, скажем, 20 или 50.
Кроме того, метод bootstrap-t обычно приводит к лучшим результатам для искаженной статистики. Однако для этого требуется вложенный цикл и, следовательно, в 20 раз больше вычислительного времени.
Для проверки гипотез также очень важно, чтобы односторонние покрытия были хорошими. Таким образом, рассмотрение только двухсторонних покрытий часто может вводить в заблуждение.
источник
Меня это тоже смутило, и я потратил много времени на бумажные доверительные интервалы DiCiccio и Efron 1996 года, но особо ничего не показал.
Это фактически заставило меня меньше думать о начальной загрузке как о методе общего назначения. Раньше я думал об этом как о чем-то, что могло бы вытащить вас из варенья, когда вы действительно застряли. Но я узнал его грязный маленький секрет: доверительные интервалы начальной загрузки все так или иначе основаны на нормальности. Позвольте мне объяснить.
Когда вы думаете о том, что оправдывает, что процентили нормального распределения связаны с доверительными интервалами, они полностью основаны на этой удобной ключевой величине. Для произвольного распределения не существует теоретической связи между процентилями распределения выборки и доверительными интервалами , и взятие необработанных пропорций распределения выборки при начальной загрузке не сокращает его.
Таким образом, интервалы BCa (с поправкой на смещение) Эфрона используют преобразования, чтобы приблизиться к нормальности, а методы начальной загрузки полагаются на получающуюся t-статистику, которая является приблизительно центральной. Теперь бутстрап может оценить адские моменты, и вы всегда можете принять нормальность и использовать стандарт +/- 2 * SE. Но, учитывая всю работу, которая пошла на непараметрическую загрузку, она выглядит не совсем честно, не так ли?
источник
Прочтите статью Тима Хестерберга в «Американском статистике» по адресу ,
По существу, процентильный интервал начальной загрузки не имеет сильной вероятности покрытия для искаженных данных, если n не велико.
источник