Bootstrap: оценка вне доверительного интервала

10

Я сделал начальную загрузку со смешанной моделью (несколько переменных с взаимодействием и одна случайная величина). Я получил этот результат (только частичный):

> boot_out

ORDINARY NONPARAMETRIC BOOTSTRAP

Call:
boot(data = a001a1, statistic = bootReg, R = 1000)

Bootstrap Statistics :
          original        bias     std. error
t1*   4.887383e+01 -1.677061e+00 4.362948e-01
t2*   3.066825e+01  1.264024e+00 5.328387e-01
t3*   8.105422e+01  2.368599e+00 6.789091e-01
t4*   1.620562e+02  4.908711e+00 1.779522e+00
......

Теперь я хотел получить доверительные интервалы для перехвата:

> boot.ci(boot_out,type=c("norm","basic","perc"), index=1)
BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
Based on 1000 bootstrap replicates

CALL : 
boot.ci(boot.out = boot_out, type = c("norm", "basic", 
"perc"), index = 1)

Intervals : 
Level      Normal              Basic              Percentile     
95%   (49.70, 51.41 )   (49.70, 51.41 )   (46.34, 48.05 )  
Calculations and Intervals on Original Scale

Оцененное смещение исправлено:

48,873 -1,677
1 47,196

У меня проблема в том, что нормальный и базовый КИ находятся за пределами оценки (исходной и исправленной). Мне просто интересно, как с этим справиться.

Обновление 1:
вот похожие вопросы с большим количеством ответов.

Джордано
источник
2
Просто комментарий: Efron & Tibshirani (1993) в классической книге скорее выступали против исправления предвзятости, говоря, что это «опасная» и «проблемная» практика, которая может привести к увеличению стандартной ошибки.
Тим
@Tim Спасибо за ваш комментарий. Я посмотрю на книгу. Возможно, решение состоит в том, чтобы использовать оценки и загрузочный se * для вычисления доверительных интервалов. В моем случае смещение влияет на оценки лишь незначительно.
Джордано

Ответы:

1

Трудность, с которой вы сталкиваетесь, связана с подразумеваемой математикой. Оценщик центра местоположения или интервал оценки можно рассматривать как минимизацию функции стоимости по распределению. Среднее значение выборки по гауссову минимизирует квадратичные потери, в то время как медиана минимизирует абсолютную линейную функцию потерь по гауссову. Хотя в популяции они находятся в одной и той же точке, они обнаруживаются с использованием различных функций стоимости.

Мы даем вам алгоритм и говорим «сделайте это», но до его разработки кто-то решил проблему оптимизации.

Вы применили четыре разные функции стоимости, которые дают вам три интервала и оценку в баллах. Поскольку функции стоимости разные, они дают вам разные точки и интервалы. С этим ничего не поделаешь, кроме как вручную унифицировать методологию.

Вам нужно найти основные документы и посмотреть на основной код, чтобы понять, какие из них соответствуют каким типам проблем.

Извините, что сказал это, но программное обеспечение вас предало. Он выполнил свою работу, и в среднем это работает отлично, но у вас есть пример, где программное обеспечение не будет работать. Или, скорее, он работает отлично, и вам нужно на самом деле пробираться назад по литературе, чтобы определить, что на самом деле делает.

Дейв Харрис
источник
Спасибо за то, что он сделал свою работу, и в среднем это работает отлично, но у вас есть пример, где программное обеспечение не будет работать, и другие идеи. Действительно, пример странный, поэтому я хотел использовать Bootsstrap для вычисления CI. Очевидно, что этот метод не так прост, как кажется.
Джордано