Почему начальная загрузка полезна?

13

Если все, что вы делаете, это повторная выборка из эмпирического распределения, почему бы просто не изучить эмпирическое распределение? Например, вместо того, чтобы изучать изменчивость путем повторной выборки, почему бы просто не определить количественно изменчивость по эмпирическому распределению?

ztyh
источник
6
« (В этом смысле) распределение начальной загрузки представляет (приблизительное) непараметрическое, неинформативное апостериорное распределение для нашего параметра. Но это распределение начальной загрузки получается безболезненно - без необходимости формально определять априор и без выборки из апостериорного распределения. Отсюда мы могли бы думать о распределении бутстрапа как о байесовском «бедном человеке» сзади ». Hastie et al. Элементы статистического обучения ". Разд. 8.4.
usεr11852
8
Как бы мы оценили неопределенность наших оценок по эмпирическому распределению?
usεr11852
2
«При мягких условиях регулярности бутстрап дает приближение к распределению оценочной или тестовой статистики, которое, по крайней мере, столь же точно, как и приближение, полученное из асимптотической теории первого порядка». unc.edu/~saraswat/teaching/econ870/fall11/JH_01.pdf .
jbowman
10
Вы спорите, не пытаясь понять. Поверьте, вы еще не поняли, что бутстрап бесполезен в отличие от многих тысяч статистиков за четыре с лишним десятилетия. Вы не читали цитату внимательно. Я думаю, что вы не поняли ключевую роль, которую играет случайность в статистике. Заявления типа "Зачем беспокоиться!" в отношении "получить распределение ... необычно, если не сказать больше. Если вы не считаете важным понимать распределение ваших оценок, вы можете подумать, почему существует поле статистики и переосмыслить этоT(X)
jbowman
4
@ztyh Вы говорите: «если вы сопоставите каждый образец с T ( X ), вы получите распределение T ( X ) ». Возможно, вам следует подумать об этом, как бы вы отобразили одну точку X i на T ( X ) = ˉ X ? Или любая функция Т ( Х 1 , Х 2 , Х п ) по этому вопросу. XT(X)T(X)XiT(X)=X¯T(X1,X2,Xn)
Knrumsey

Ответы:

18

Начальная загрузка (или другая повторная выборка) - это экспериментальный метод оценки распределения статистики.

Это очень простой и простой метод (он просто означает, что вы вычисляете множество случайных вариантов выборочных данных, чтобы получить желаемое распределение статистики).

Скорее всего, вы используете его, когда «теоретическое / аналитическое» выражение слишком сложно получить / рассчитать (или, как говорит Аксакал, иногда они неизвестны).

  • Пример 1. Если вы выполняете анализ pca и хотите сравнить результаты с «оценками отклонения собственных значений» с учетом гипотезы об отсутствии корреляции между переменными.

    Вы можете многократно скремблировать данные и пересчитать собственные значения pca, чтобы получить распределение (на основе случайных тестов с данными выборки) для собственных значений.

    Обратите внимание, что нынешние практики пристально следят за сюжетом и применяют эмпирические правила, чтобы «решить», является ли определенное собственное значение значимым / важным или нет.

  • Пример 2: Вы выполнили нелинейную регрессию y ~ f (x), предоставив вам некоторую оценку набора параметров для функции f. Теперь вы хотите узнать стандартную ошибку для этих параметров.

    Некоторый простой взгляд на невязки и линейную алгебру, как в OLS, здесь невозможен. Тем не менее, простой способ состоит в том, чтобы вычислять одну и ту же регрессию много раз с повторно скремблированными остатками / ошибками, чтобы получить представление о том, как будут изменяться параметры (учитывая, что распределение для члена ошибки может быть смоделировано наблюдаемыми невязками).


Автор StackExchangeStrike

Секст Эмпирик
источник
2
Я думаю, что ваш пример не бутстрап. Это просто выборка из известного нулевого распределения. Bootstrap - это место, где у вас есть один сэмпл, и вы снова и снова сэмплируете из этого сэмпла.
зтых
3
В своем вопросе вы представляете, как рассчитать дисперсию выборки, которая действительно проста и не требует начальной загрузки. В моем примере я говорю о ситуации, в которой мы имеем значение, полученное из выборки. Тогда мы больше не сможем просто вычислить дисперсию, но все же мы хотим знать, как она меняется. Путем многократного скремблирования данных и повторного вычисления собственных значений pca вы можете получить такие данные распределения (случайные), которые соответствуют распределению вашей выборки. Если я не ошибаюсь , это будет называется самонастройки.
Секст Эмпирик
Хорошо, я понимаю, где я неправильно понял вещи. Ваш пример имеет смысл. Благодарю.
Ztyh
8

Ключевым моментом является то, что бутстрап на самом деле не для выяснения особенностей распределения данных , а для выяснения особенностей оценщика, примененного к данным.

Нечто подобное эмпирической функции распределения покажет вам довольно хорошую оценку CDF, из которой получены данные ... но, изолируя, она ничего не скажет вам о том, насколько надежными будут оценки, которые мы строим из этих данных. На этот вопрос ответ с помощью начальной загрузки.

Клифф AB
источник
1
Использование (непараметрического) начального загрузчика для поиска «распределения данных» было бы смешным: он просто предлагает эмпирическую функцию распределения, которая представляет собой именно тот набор данных, с которого начинал аналитик. Напоминает мне об алгебре колледжа, когда я "найду решение для X" и найду "X = X".
AdamO
3

Если вы точно знаете, что лежит в основе дистрибутива, вам не нужно его изучать. Иногда в естествознании вы точно знаете распределение.

Если вы знаете тип распределения, тогда вам нужно только оценить его параметры и изучить его в том смысле, который вы имели в виду. Например, иногда вы априори знаете, что базовый дистрибутив нормален. В некоторых случаях вы даже знаете, что это значит. Таким образом, для нормального, единственное, что осталось выяснить, это стандартное отклонение. Вы получаете образец стандартного отклонения от образца, и вуаля, вы получаете распределение для изучения.

Если вы не знаете, что такое дистрибутив, но думаете, что он один из нескольких в списке, то вы можете попытаться приспособить этот дистрибутив к данным и выбрать тот, который подходит лучше всего. Затем вы изучаете это распределение.

И, наконец, часто вы не знаете тип дистрибуции, с которой имеете дело. И у вас нет причин полагать, что он принадлежит к одному из 20 дистрибутивов, которым R может соответствовать ваши данные. Чем ты планируешь заняться? Хорошо, вы смотрите на среднее и стандартные отклонения, хорошо. Но что, если это очень искажено? Что если его эксцесс очень велик? и так далее. Вам действительно нужно знать все моменты распространения, чтобы знать и изучать это. Таким образом, в этом случае удобна непараметрическая начальная загрузка. Вы не берете много, а просто берете из него образец, затем изучаете его моменты и другие свойства.

Хотя непараметрическая начальная загрузка не является волшебным инструментом, у нее есть проблемы. Например, это может быть предвзятым. Я думаю, что параметрическая начальная загрузка беспристрастна

Аксакал
источник
1
Я думаю, что даже если вы не знали истинного распределения, многие моменты легко рассчитать. Поэтому я думаю, что проблема не в том, что вы не знаете тип дистрибутива, с которым вы имеете дело. Скорее речь идет о том, какую статистику вы пытаетесь изучить. Некоторая статистика может быть трудно рассчитать, и только тогда она полезна для начальной загрузки.
Ztyh
Как и в комментарии к вопросу к usεr11852, на самом деле у меня есть сомнения относительно преимуществ в отношении вычислимости статистики ...
ztyh
ln(x3+x)
1
xzf(x,z)x,z
1
fxzf(x,z)