Можем ли мы использовать образцы начальной загрузки, которые меньше исходного?

12

Я хочу использовать начальную загрузку для оценки доверительных интервалов для оценочных параметров из набора панельных данных с N = 250 фирмами и T = 50 месяцем. Оценка параметров является вычислительно дорогой (несколько дней вычислений) из-за использования фильтрации Калмана и сложной нелинейной оценки. Поэтому отбор (с заменой) B (сотнями и более) выборок M = N = 250 фирм из исходной выборки и оценка параметров B раз вычислительно невозможны, даже если это основной метод начальной загрузки.

Поэтому я рассматриваю возможность использования меньшего M (например, 10) для выборок начальной загрузки (а не полного размера N = 250), сделанного случайным образом с заменой из оригинальных фирм, и затем масштабируемой по начальной загрузке ковариационной матрицы параметров модели с помощью (в примере выше на 1/25), чтобы вычислить ковариационную матрицу для параметров модели, оцененных по полной выборке.1NM

Затем желаемые доверительные интервалы могут быть аппроксимированы на основе предположения о нормальности или эмпирических интервалов для более мелкой выборки, масштабированной с использованием аналогичной процедуры (например, уменьшенной с коэффициентом ,1NM

Имеет ли этот обходной путь смысл? Есть ли теоретические результаты, подтверждающие это? Есть ли альтернативы для решения этой проблемы?

Hazhir
источник

Ответы:

4

Этот вопрос задавался очень давно, но я публикую ответ на тот случай, если кто-нибудь обнаружит его в будущем. Короче говоря, ответ «да»: вы можете сделать это во многих настройках, и вы можете исправить изменение размера выборки с помощью . Этот подход обычно называют boostrap out of , и он работает в большинстве настроек, как это делает «традиционный» загрузчик, а также в некоторых настройках, в которых он не работает.MNMN

Причина в том, что во многих аргументах согласованности начальной загрузки используются оценщики в форме , где - случайные величины, а - некоторый параметр базовое распределение. Например, для выборочного среднего значения и .1N(TNμ)X1,,XNμTN=1Ni=1NXiμ=E(X1)

Многие доказательства непротиворечивости начальной загрузки утверждают, что, как , учитывая некоторую конечную выборку и связанную оценку точки , где взяты из истинного базового распределения, а нарисованы с заменой из .N{x1,,xN}μ^N=TN(x1,,xN)

(1)N(TN(X1,,XN)μ^N)DN(TN(X1,,XN)μ)
XiXi{x1,,xN}

Однако мы могли бы также использовать более короткие выборки длины и рассмотреть оценщик Оказывается, что, как и , оценщик ( ) имеет то же предельное распределение, что и выше, в большинстве настроек, где ( ) держит и кое где нет. В этом случае ( ) и ( ) имеют одинаковое предельное распределение, мотивируя поправочный коэффициент например, в стандартном отклонении выборки.M<N

(2)M(TM(X1,,XM)μ^N).
M,N2112MN

Все эти аргументы являются асимптотическими и имеют место только в пределе . Чтобы это работало, важно не выбирать слишком маленьким. Существует некоторая теория (например, Биккель и Саков ниже) о том, как выбрать оптимальный как функцию от чтобы получить наилучшие теоретические результаты, но в вашем случае вычислительные ресурсы могут быть решающим фактором.M,NM MN

Для некоторой интуиции: во многих случаях у нас есть как , так что можно считать немного похожим на из начальной загрузки с и (я использую строчные буквы, чтобы избежать путаницы в обозначениях ). Таким образом, эмуляция распределения ( ) с использованием начальной загрузки из с является более "правильной" вещью, чем традиционная ( изμ^NDμN

(3)N(TN(X1,,XN)μ),
mnm=Nn=MNM<NNN3MNM<NNN) своего рода. Дополнительным бонусом в вашем случае является то, что это менее затратно для вычислений.

Как вы упомянули, Политис и Романо - основная статья. Я нахожу Bickel et al (1997) под хорошим обзором бутстрапа изMN

Источники :

PJ Bickel, F Goetze, WR van Zwet. 1997. Повторная выборка менее чем наблюдений: выгоды, потери и средства защиты от потерь. Statistica Sinica.n

PJ Bickel, A Sakov. 2008. О выборе в nuf из начальной загрузки и доверительных границ для экстремумов. Statistica Sinica.mmn

aph416
источник
3

После прочтения этой темы кажется, что в рамках «подвыборки» установлена ​​теория, позволяющая проводить такой тип оценки доверительного интервала. Ключевой ссылкой является «Политис, DN; Романо, JP (1994). Большие доверительные области выборки, основанные на подвыборках при минимальных допущениях. Annals of Statistics, 22, 2031-2050».

Идея состоит в том, чтобы извлечь выборки с размером M <N, «без замены» для каждой выборки (но с заменой на разные выборки размера B), из N исходных точек данных (рядов в моем случае) и оценить доверительный интервал интересующий параметр, используя эти образцы и общий метод начальной загрузки. Затем масштабируйте доверительный интервал на основе скорости изменения дисперсии базового распределения параметра с изменениями в M. Эта скорость равна 1 / M во многих общих настройках, но ее можно было бы эмпирически оценить, если мы повторим процедуру с несколькими различными M значения и посмотреть на изменения в размере межперсентильных диапазонов.

Hazhir
источник