Предположим, у меня есть набор данных выборки из неизвестного или сложного распределения, и я хочу сделать некоторый вывод по статистике данных. Моя склонность по умолчанию является просто генерировать кучу образцов бутстраповских с заменой, и вычислить мою статистику на каждый образец начальной загрузки , чтобы создать оценочное распределение для .
Какие примеры, где это плохая идея?
Например, один из случаев, когда наивное выполнение этой начальной загрузки завершится неудачей, - это попытка использования начальной загрузки для данных временных рядов (скажем, для проверки наличия у меня значительной автокорреляции). Наивный начальный загрузчик, описанный выше (создание го datapoint из n-ой серии образцов начальной загрузки путем выборки с заменой из моей исходной серии), я думаю, будет опрометчивым, поскольку он игнорирует структуру в моем исходном временном ряду, и поэтому мы получить более совершенные методы начальной загрузки, такие как блок начальной загрузки.
Другими словами, что там с начальной загрузкой, кроме «выборки с заменой»?
Ответы:
Если интересующее вас количество, как правило, функционал дистрибутива, достаточно гладкое, а ваши данные находятся на виду, вы обычно находитесь на довольно безопасной территории. Конечно, есть и другие обстоятельства, когда загрузчик также будет работать.
Что значит для загрузчика «провалиться»
Вообще говоря, целью начальной загрузки является построение приблизительного распределения выборки для статистики, представляющей интерес. Речь идет не о реальной оценке параметра. Итак, если интересующая статистика (при некотором масштабировании и центрировании) в и , мы бы хотели, чтобы наше дистрибутивное распределение сходятся к распределению . Если у нас этого нет, то мы не можем доверять сделанным выводам.X^n X^n→X∞ X∞
Канонический пример , когда самозагрузки могут потерпеть неудачу, даже в н.о.р. каркаса при попытке приблизить распределение выборки экстремальной статистики порядка. Ниже приводится краткое обсуждение.
Статистика максимального порядка случайной выборки из распределенияU[0,θ]
Пусть - последовательность iid равномерных случайных величин на . Пусть . Распределение - это (Обратите внимание, что с помощью очень простого аргумента это фактически также показывает, что по вероятности и даже почти наверняка , если все случайные величины определены в одном и том же пространстве.)X1,X2,… [0,θ] X(n)=max1≤k≤nXk X(n)
Элементарный расчет дает или, другими словами, сходится по распределению к экспоненциальной случайной величине со средним значением .
Теперь мы формируем (наивную) загрузочную оценку распределения путем повторной выборки с заменой, чтобы получить и используя распределение из зависимости от .n(θ−X(n)) X1,…,Xn X⋆1,…,X⋆n n(X(n)−X⋆(n)) X1,…,Xn
Но внимание, что с вероятностью , и поэтому распределение начальной загрузки имеет точечную массу в нуле даже асимптотически несмотря на тот факт, что фактическое предельное распределение является непрерывным.X⋆(n)=X(n) 1−(1−1/n)n→1−e−1
Более конкретно, хотя истинное предельное распределение является экспоненциальным со средним значением , предельное распределение начальной загрузки помещает точечную массу в ноль размера независимо от фактического значения . Взяв достаточно большим, мы можем сделать вероятность истинного предельного распределения произвольно малой для любого фиксированного интервала , однако загрузчик покажет ( все же !), Что в этом интервале есть хотя бы вероятность 0,632! Из этого должно быть ясно, что загрузчик может вести себя произвольно плохо в этой настройке.θ 1−e−1≈0.632 θ θ [0,ε)
Таким образом, в этом случае начальная загрузка завершается неудачно (с треском). Вещи, как правило, идут не так, когда имеют дело с параметрами на границе пространства параметров.
Пример из выборки нормальных случайных величин
Есть и другие подобные примеры неудачи бутстрапа в удивительно простых обстоятельствах.
Рассмотрим пример из где пространство параметров для ограничено . MLE в этом случае - это . Опять же, мы используем оценку начальной загрузки . Опять же, можно показать, что распределение (в зависимости от наблюдаемого образца) не сходится к тому же предельному распределению, что и .X1,X2,… N(μ,1) μ [0,∞) X^n=max(X¯,0) X^⋆n=max(X¯⋆,0) n−−√(X^⋆n−X^n) n−−√(X^n−μ)
Сменные массивы
Возможно, один из самых драматических примеров для сменного массива. Пусть будет массивом случайных величин таким, что для каждой пары матриц перестановок и , массивы и имеют одинаковое совместное распределение. То есть перестановка строк и столбцов в сохраняет инвариант распределения. (Можно привести в качестве примера модель двусторонних случайных эффектов с одним наблюдением на ячейку, хотя модель гораздо более общая.)Y=(Yij) P Q Y PYQ Y
Предположим, мы хотим оценить доверительный интервал для среднего значения (из-за предположения о взаимозаменяемости, описанного выше, для всех клетки должны быть одинаковыми).μ=E(Yij)=E(Y11)
McCullagh (2000) рассмотрел два различных естественных (то есть наивных) способа начальной загрузки такого массива. Ни один из них не получил правильную асимптотическую дисперсию для выборки. Он также рассматривает некоторые примеры односторонней сменной матрицы и линейной регрессии.
Рекомендации
К сожалению, тема нетривиальна, поэтому ни один из них не особенно легко читается.
источник
В следующей книге есть глава (гл. 9), посвященная теме «При неудачной начальной загрузке наряду с мерами по устранению неисправностей»:
М.Р. Черник, Bootstrap методы: руководство для практиков и исследователей , 2-е изд. Хобокен Нью-Джерси: Wiley-Interscience, 2008.
Темы:
источник
Наивный загрузчик зависит от размера выборки, так что эмпирический CDF для данных является хорошим приближением к «истинному» CDF. Это гарантирует, что выборка из эмпирического CDF очень похожа на выборку из «истинного» CDF. Крайний случай - когда вы отбираете только одну точку данных - здесь начальная загрузка ничего не дает. По мере приближения к этому вырожденному случаю он будет становиться все более и более бесполезным.
Наивно начальная загрузка не обязательно потерпит неудачу при анализе временных рядов (хотя это может быть неэффективно) - если вы моделируете ряд, используя базовые функции непрерывного времени (такие как многочлены легенды) для компонента тренда, а функции синуса и косинуса непрерывного времени для циклического компоненты (плюс нормальный срок ошибки шума). Затем вы просто вставляете то, что вы когда-либо делали, в функцию правдоподобия. Никакой катастрофы для начальной загрузки здесь.
Любая модель автокорреляции или ARIMA имеет представление в этом формате выше - эта модель просто проще в использовании, и я думаю, что она понятна и понятна (легко понять циклы в функциях синуса и косинуса, трудно понять коэффициенты модели ARIMA). Например, функция автокорреляции является обратным преобразованием Фурье спектра мощности временного ряда.
источник