Если все, что вы делаете, это повторная выборка из эмпирического распределения, почему бы просто не изучить эмпирическое распределение? Например, вместо того, чтобы изучать изменчивость путем повторной выборки, почему бы просто не определить количественно изменчивость по эмпирическому распределению?
13
Ответы:
Начальная загрузка (или другая повторная выборка) - это экспериментальный метод оценки распределения статистики.
Это очень простой и простой метод (он просто означает, что вы вычисляете множество случайных вариантов выборочных данных, чтобы получить желаемое распределение статистики).
Скорее всего, вы используете его, когда «теоретическое / аналитическое» выражение слишком сложно получить / рассчитать (или, как говорит Аксакал, иногда они неизвестны).
Пример 1. Если вы выполняете анализ pca и хотите сравнить результаты с «оценками отклонения собственных значений» с учетом гипотезы об отсутствии корреляции между переменными.
Вы можете многократно скремблировать данные и пересчитать собственные значения pca, чтобы получить распределение (на основе случайных тестов с данными выборки) для собственных значений.
Обратите внимание, что нынешние практики пристально следят за сюжетом и применяют эмпирические правила, чтобы «решить», является ли определенное собственное значение значимым / важным или нет.
Пример 2: Вы выполнили нелинейную регрессию y ~ f (x), предоставив вам некоторую оценку набора параметров для функции f. Теперь вы хотите узнать стандартную ошибку для этих параметров.
Некоторый простой взгляд на невязки и линейную алгебру, как в OLS, здесь невозможен. Тем не менее, простой способ состоит в том, чтобы вычислять одну и ту же регрессию много раз с повторно скремблированными остатками / ошибками, чтобы получить представление о том, как будут изменяться параметры (учитывая, что распределение для члена ошибки может быть смоделировано наблюдаемыми невязками).
Автор StackExchangeStrike
источник
Ключевым моментом является то, что бутстрап на самом деле не для выяснения особенностей распределения данных , а для выяснения особенностей оценщика, примененного к данным.
Нечто подобное эмпирической функции распределения покажет вам довольно хорошую оценку CDF, из которой получены данные ... но, изолируя, она ничего не скажет вам о том, насколько надежными будут оценки, которые мы строим из этих данных. На этот вопрос ответ с помощью начальной загрузки.
источник
Если вы точно знаете, что лежит в основе дистрибутива, вам не нужно его изучать. Иногда в естествознании вы точно знаете распределение.
Если вы знаете тип распределения, тогда вам нужно только оценить его параметры и изучить его в том смысле, который вы имели в виду. Например, иногда вы априори знаете, что базовый дистрибутив нормален. В некоторых случаях вы даже знаете, что это значит. Таким образом, для нормального, единственное, что осталось выяснить, это стандартное отклонение. Вы получаете образец стандартного отклонения от образца, и вуаля, вы получаете распределение для изучения.
Если вы не знаете, что такое дистрибутив, но думаете, что он один из нескольких в списке, то вы можете попытаться приспособить этот дистрибутив к данным и выбрать тот, который подходит лучше всего. Затем вы изучаете это распределение.
И, наконец, часто вы не знаете тип дистрибуции, с которой имеете дело. И у вас нет причин полагать, что он принадлежит к одному из 20 дистрибутивов, которым R может соответствовать ваши данные. Чем ты планируешь заняться? Хорошо, вы смотрите на среднее и стандартные отклонения, хорошо. Но что, если это очень искажено? Что если его эксцесс очень велик? и так далее. Вам действительно нужно знать все моменты распространения, чтобы знать и изучать это. Таким образом, в этом случае удобна непараметрическая начальная загрузка. Вы не берете много, а просто берете из него образец, затем изучаете его моменты и другие свойства.
Хотя непараметрическая начальная загрузка не является волшебным инструментом, у нее есть проблемы. Например, это может быть предвзятым. Я думаю, что параметрическая начальная загрузка беспристрастна
источник