Среднее из начальной загрузки выборки против статистики выборки

Скажем, у меня есть образец и образец начальной загрузки из этого образца для стастита (например, среднее значение). Как все мы знаем, эта самозагрузки образец оценивает на распределение выборки из оценки из статистики. $\chi$

Теперь, является ли среднее значение этой выборки начальной загрузки лучшей оценкой статистики популяции, чем статистика исходной выборки ? При каких условиях это будет иметь место?

estimation bootstrap Амелио Васкес-Рейна
источник

Среднее значение образца начальной загрузки является средним значением образца, и в этом случае вам не нужен образец начальной загрузки.

Сиань

Спасибо @ Сиань, я не уверен, что я следую. Среднее значение образца начальной загрузки может численно отличаться от среднего значения образца. Вы пытаетесь сказать, что эти два теоретически эквивалентны? Можете ли вы подтвердить на обоих концах?

Амелио Васкес-Рейна

Давайте проясним нашу терминологию: «пример начальной загрузки» может относиться либо к конкретной выборке с заменой из данных, либо к (многомерной) случайной переменной, из которой такая выборка будет считаться одной реализацией. Вы правы в том, что среднее значение реализации может отличаться от среднего значения данных, но @ Xi'an предоставляет более релевантное наблюдение о том, что среднее значение случайной величины (которая по определению является начальной оценкой среднего значения совокупности ) должно совпадать со средним значением данных.

whuber

Тогда ваш вопрос почти идентичен stats.stackexchange.com/questions/126633/… ; единственное отличие состоит в том, что реализации примера начальной загрузки могут перекрываться, но анализ, приведенный в ответе, легко переносится в ситуацию начальной загрузки с тем же результатом.

whuber

Я вижу соединение @whuber, хотя в начальной загрузке есть «подмножества с заменой», и реализации могут перекрываться, как вы сказали. Я полагаю, что распределение (например, псевдослучайность), используемое для получения повторных выборок в начальной загрузке, также может повлиять на смещение оценки из выборки начальной загрузки. Возможно, ответ заключается в том, что для всех практических вопросов разница незначительна. Это то, что вопрос после: условия, тонкости и разница на практике.

Амелио Васкес-Рейна

Ответы:

Давайте обобщим, чтобы сосредоточиться на сути вопроса. Я изложу мельчайшие детали, чтобы не оставить никаких сомнений. Анализ требует только следующее:

Среднее арифметическое из набора чисел определяется как $z_1, \ldots, z_m$

$\frac{1}{м} (Z_{1} + \dots + Z_{м}),$ $\frac{1}{m}\left(z_1 + \cdots + z_m\right).$
Ожидание является линейным оператором. То есть, когда являются случайными переменными и являются числами, то ожидание линейной комбинации является линейной комбинацией ожиданий, $Z_i, i=1,\ldots,m$ $\alpha_i$

$Е (α_{1} Z_{1} + \dots + α_{м} Z_{м}) знак равно α_{1} Е (Z_{1}) + \dots + α_{м} Е (Z_{м}),$ $\mathbb{E}\left(\alpha_1 Z_1 + \cdots + \alpha_m Z_m\right) = \alpha_1 \mathbb{E}(Z_1) + \cdots + \alpha_m\mathbb{E}(Z_m).$

Пусть - выборка полученная из набора данных путем равномерного взятия элементов из с заменой. Пусть среднее арифметическое из . Это случайная величина. потом $B$ $(B_1, \ldots, B_k)$ $x = (x_1, \ldots, x_n)$ $k$ $x$ $m(B)$ $B$

Е (м (В)) знак равно Е (\frac{1}{К} (В_{1} + \dots + В_{К})) знак равно \frac{1}{К} (Е (В_{1}) + \dots + Е (В_{К}))

$\mathbb{E}(m(B)) = \mathbb{E}\left(\frac{1}{k}\left(B_1+\cdots+B_k\right)\right) = \frac{1}{k}\left(\mathbb{E}(B_1) + \cdots + \mathbb{E}(B_k)\right)$

следует по линейности ожидания. Поскольку все элементы получены одинаковым образом, все они имеют одинаковое ожидание, говорят: $B$ $b$

Е (В_{1}) знак равно \dots знак равно Е (В_{К}) знак равно б,

$\mathbb{E}(B_1) = \cdots = \mathbb{E}(B_k) = b.$

Это упрощает вышеизложенное

Е (м (В)) знак равно \frac{1}{К} (б + б + \dots + б) знак равно \frac{1}{К} (К б) знак равно б,

$\mathbb{E}(m(B)) = \frac{1}{k}\left(b + b + \cdots + b\right) = \frac{1}{k}\left(k b\right) = b.$

По определению ожидание представляет собой взвешенную по вероятности сумму значений. Поскольку предполагается, что каждое значение имеет равную вероятность выбора , $X$ $1/n$

Е (м (В)) знак равно б знак равно Е (В_{1}) знак равно \frac{1}{N} {Икс}_{1} + \dots + \frac{1}{N} {Икс}_{N} знак равно \frac{1}{N} ({Икс}_{1} + \dots + {Икс}_{N}) знак равно \bar{Икс},

$\mathbb{E}(m(B)) = b = \mathbb{E}(B_1) = \frac{1}{n}x_1 + \cdots + \frac{1}{n}x_n = \frac{1}{n}\left(x_1 + \cdots + x_n\right) = \bar x,$

среднее арифметическое данных.

Чтобы ответить на вопрос, если кто-то использует среднее значение данных для оценки среднего значения популяции, то среднее значение начальной загрузки (в данном случае ) также равно и, следовательно, является идентичным в качестве оценки среднего значения популяции. , $\bar x$ $k=n$ $\bar x$

Для статистики, которая не является линейной функцией данных, один и тот же результат не обязательно имеет место. Однако было бы неправильно просто подставлять среднее значение начальной загрузки для значения статистики в данных: это не то, как работает начальная загрузка. Вместо этого, сравнивая среднее значение начальной загрузки со статистикой данных, мы получаем информацию о смещении статистики. Это можно использовать для корректировки исходной статистики, чтобы устранить смещение. Таким образом, исправленная смещением оценка, таким образом, становится алгебраической комбинацией исходной статистики и среднего значения начальной загрузки. Для получения дополнительной информации ищите «BCa» (скорректированная смещения и ускоренная начальная загрузка) и «ABC». Википедия предоставляет некоторые ссылки.

Whuber
источник

Вы имеете в виду, что ожидание среднего значения при загрузке равно среднему по данным, нет? Само значение начальной загрузки не определяется (исходной) выборкой данных.

Капибаралет

@ user2429920 Средство начальной загрузки - это статистика, определяемая выборкой. В этом смысле оно идентично среднему показателю. Его ожидание взято в смысле распределения выборки. Я подозреваю, что вы можете использовать «ожидание» в другом смысле относительно процесса вычисления среднего значения при начальной загрузке с помощью повторной подвыборки с заменой.

whuber

Я думаю, что последний абзац является фактическим ответом на этот вопрос, поскольку он является общим и не сфокусирован только на средней статистике. У меня были те же сомнения, что и у ОП, и я не знал о существовании BCa. Хотя демонстрация в этом ответе мне не сильно помогла (я не использую среднее в качестве своей статистики), последний абзац был очень ясен о сути вопроса. Я полагаю, что ответ Сианя также касается случая, когда используется средняя статистика, то же самое. Спасибо!

Габриэль

@ Габриэль хорошие очки. Я проверил запись: перед редактированием этот вопрос изначально задавался только о среднем. Вот почему ответы так сосредоточены на этой статистике.

whuber

{\hat{F}}_{N} (Икс) знак равно \frac{1}{N} Σ_{я знак равно 1}^{N} я_{{Икс}_{я} \leq Икс} {Икс}_{я} \overset{н.о.р.}{~} F (Икс),

$\hat{F}_n(x) = \frac{1}{n}\sum_{i=1}^n\mathbb{I}_{X_i\le x}\qquad X_i\stackrel{\text{iid}}{\sim}F(x)\,,$

Е_{{\hat{F}}_{N}} [Икс] знак равно \frac{1}{N} Σ_{я знак равно 1}^{N} {Икс}_{я} знак равно {\bar{Икс}}_{N}

$\mathbb{E}_{\hat{F}_n}[X]=\frac{1}{n}\sum_{i=1}^n X_i=\bar{X}_ n$

E_{{\hat{F}}_{n}} [X]

$\mathbb{E}_{\hat{F}_n}[X]$

{\bar{X}}_{n}

$\bar{X}_ n$

Сиань
источник

+1 Это ответ, который я изначально хотел написать, но боялся, что он может оказаться слишком непрозрачным для некоторых читателей. Я, тем не менее, рад видеть его так элегантно представленным. Я не уверен, что вы имеете в виду в своем последнем предложении, хотя вы, кажется, отличаете «ожидание» моделируемого приближения от среднего значения от его «предела»: так как ожидание является постоянным (оно не изменяется в зависимости от размера моделирования) ), на самом деле нет никаких ограничений.

whuber

@whuber: Спасибо за комментарий и извините за то, что написали мой краткий ответ точно в то же время, что и ваш! Ваши объяснения, безусловно, более читабельны для новичков в начальной загрузке. Я исправил последнее предложение, ограничивающей частью которого является закон больших чисел.

Сиань

Использование вами «среднего» в этом последнем предложении весьма неоднозначно! Я понял это из вашей подсказки LLN. Для любого конечного моделирования распределения начальной загрузки каждая выборка в моделировании производит свое собственное среднее значение (есть одно значение «среднего»). Среднее значение всех этих выборок в данном моделировании дает среднее значение моделирования (есть другое значение). Среднее значение моделирования сходится к константе по мере увеличения размера моделирования, которое является средним значением начальной загрузки (третье значение), и это равняется среднему значению выборки (четвертое значение). (И это оценивает среднее значение населения - пятое значение!)

whuber