Почему данные должны быть пересчитаны при нулевой гипотезе при тестировании гипотезы при начальной загрузке?

11

Простое применение методов начальной загрузки к проверке гипотез состоит в том, чтобы оценить доверительный интервал тестовой статистики , многократно вычисляя его по загрузочным выборкам (пусть статистика взятая из начальной загрузки, называется ). Мы отвергаем если предполагаемый параметр (который обычно равен 0) находится за пределами доверительного интервала . $\hat{\theta}$ $\hat{\theta}$ $\hat{\theta^*}$ $H_0$ $\theta_0$ $\hat{\theta^*}$

Я читал, что этому методу не хватает силы. В статье Холла П. и Уилсона С.Р. "Два руководства по проверке гипотезы начальной загрузки" (1992) в качестве первого указывается, что следует пересчитать , а не . И это та часть, которую я не понимаю. $\hat{\theta^*} - \hat{\theta}$ $\hat{\theta^*} - \theta_0$

Разве это не измеряет только смещение оценки ? Для объективных оценок доверительные интервалы этого выражения всегда должны быть меньше, чем , но я не понимаю, как это связано с тестированием на ? Я нигде не вижу, чтобы мы поместили информацию о . $\hat{\theta^*} - \hat{\theta}$ $\hat{\theta^*}$ $\hat{\theta^*} - \theta_0$ $\hat{\theta}=\theta_0$ $\theta_0$

Для тех из вас, у кого нет доступа к этой статье, это цитата из соответствующего абзаца, которая следует сразу после тезиса:

Чтобы понять, почему это важно, обратите внимание, что тест будет включать отклонение если в "слишком большой" Если далеко от истинного значения (т. Если является грубой ошибкой), то разница никогда не будет выглядеть слишком большим по сравнению с непараметрическим распределением начальной загрузки, Более значимое сравнение с распределением, На самом деле, если истинное значение равно $H_0$ $\left| \hat{\theta} - \theta_0\right|$ $\theta_0$ $\theta$ $H_0$ $\left|\hat{\theta} - \theta_0 \right|$ $\left| \hat{\theta} - \theta_0\right|$ $\left| \hat{\theta^*} - \hat{\theta}\right|$ $\theta$ $\theta_1$ тогда мощность теста начальной загрузки увеличивается до 1 какувеличивается, если тест основан на повторной выборке , но мощность уменьшается не более чем до уровня значимости (при увеличении ), если тест основан на повторной выборке $\left|\theta_1 - \theta_0\right|$ $\left| \hat{\theta^*} - \hat{\theta}\right|$ $\left|\theta_1 - \theta_0\right|$ $\left|\hat{\theta} - \theta_0\right|$

hypothesis-testing bootstrap Адам Рычковски
источник

7

Это принцип аналогии с начальной загрузкой. (Неизвестное) лежащее в основе истинное распределение произвело образец под рукой с cdf , который, в свою очередь, дал статистику для некоторого функционала . Ваша идея использования начальной загрузки состоит в том, чтобы делать заявления о распределении выборки на основе известного распределения , где вы пытаетесь использовать идентичный протокол выборки (что в точности возможно только для данных iid; зависимые данные всегда приводят к ограничениям того, как точно можно воспроизвести процесс выборки) и применить тот же функционал . Я продемонстрировал это в другом посте $F$ $x_1, \ldots, x_n$ $F_n$ $\hat\theta=T(F_n)$ $T(\cdot)$ $\tilde F$ $T(\cdot)$ с (что я думаю, это) аккуратная диаграмма. Таким образом, аналог начальной загрузки ((выборка + систематическое) отклонения , величина вашего центрального интереса, - это отклонение репликации начальной загрузки от того, что известно как истинное для распределения , процесс выборки, который вы применили, и функционал , т.е. ваша мера центральной тенденции равна . Если вы использовали стандартную непараметрическую начальную загрузку с заменой из исходных данных, то ваш , поэтому ваша мера центральной тенденции должна быть на основе исходных данных. $\hat\theta - \theta_0$ $\hat\theta^*$ $\tilde F$ $T(\cdot)$ $T(\tilde F)$ $\tilde F=F_n$ $T(F_n) \equiv \hat \theta$

Помимо перевода, есть и более тонкие проблемы, возникающие с тестами начальной загрузки, которые иногда трудно преодолеть. Распределение тестовой статистики при нулевом значении может существенно отличаться от распределения тестовой статистики при альтернативе (например, в тестах на границе пространства параметров, которые не выполняются при начальной загрузке ). Простые тесты, которые вы изучаете в классах бакалавриата, такие как -test, инвариантны при сдвиге, но думать, что «черт, я просто перекладываю все», не получается, если вам нужно перейти на следующий уровень концептуальной сложности, асимптотические тесты . Подумайте об этом: вы тестируете, что , и ваш наблюдаемый . Затем, когда вы строите $t$ $\chi^2$ $\mu=0$ $\bar x=0.78$ $\chi^2$ test с аналогом начальной загрузки , то этот тест изначально имеет встроенную нецентральность , а не является центральным тестом, каким мы его ожидаем. Чтобы сделать тест начальной загрузки центральным, вам действительно нужно вычесть исходную оценку. $(\bar x-\mu)^2/(s^2/n) \equiv \bar x^2/(s^2/n)$ $\bar x_*^2/(s_*^2/n)$ $n \bar x^2/s^2$

В испытания неизбежно в многовариантных контекстах, начиная от Pearson для таблиц сопряженности в Bollen-Стине бутстрап тестовой статистики в структурных моделях уравнений. Понятие сдвига распределения чрезвычайно трудно хорошо определить в этих ситуациях ... хотя в случае тестов на многовариантных ковариационных матрицах это выполнимо путем соответствующего поворота . $\chi^2$ $\chi^2$

Stask
источник

Спасибо. Есть одна мысль, которую я до сих пор не понимаю: куда мы помещаем информацию о в загрузку? Если - false, может быть значительно от истинного распределения.

θ_{0}

$\theta_0$

H_{0}

$H_0$

θ_{0}

$\theta_0$

Адам Рычковски,

Вы вычисляете значение p под нулевым значением, поэтому вам следует рассмотреть случай, когда соответствует нулевому . Рассматривать альтернативу, конечно, стоит в рамках альтернативы, но это ... вау ... это было бы расширенное использование методологии начального тестирования.

θ_{0}

$\theta_0$

StasK

3

ОК, я понял Спасибо, StasK, за такой хороший ответ. Я сделаю так, чтобы другие могли учиться, но в моем конкретном случае я упустил очень простой факт:

Процедура начальной загрузки в соответствии с рекомендациями Холла и Уилсона для простого среднего теста с одной выборкой такова (в псевдокоде, вдохновленном R):

1function(data, $\theta_0$ ) {
2 $\hat{\theta} \leftarrow$ t.test(data, mu = $\theta_0$ )$statistic
3 count $\leftarrow 0$
4for(i in 1:1000){
5 bdata $\leftarrow$ sample(data)
6 $\hat{\theta^*} \leftarrow$ t.test(bdata, mu = $\hat{\theta}$ )$statistic
7 if ( $\hat{\theta^*} \le \hat{\theta}$ ) count++
8 }
9 count/1000
10 }

Часть, которую я пропустил, заключалась в том, что был «использован» в строке (где мы установили ссылку ). $\theta_0$ 2 $\hat{\theta}$

Интересно отметить, что в строке 2и 6мы могли бы одинаково легко использовать p.valueвместо statistic. В этом случае мы также должны изменить на в строке . $\le$ $\ge$ 7

Адам Рычковски
источник

Я проголосовал ранее, но потом понял, что это на самом деле неправильно. Согласно Холлу и Уилсону (раздел 2, стр. 278), является оценкой , а не статистикой теста, как вы показали. То, как вступает в игру, состоит в том, что мы формируем передискретизированный дистрибутив , а затем выглядит "экстремально" по сравнению с передискретизированным распределением.

\hat{θ}

$\widehat{\theta}$

θ

$\theta$

θ_{0}

$\theta_0$

({\hat{θ}}^{*} - \hat{θ})

$( \widehat{\theta}^{*} - \widehat{\theta} )$

(\hat{θ} - θ_{0})

$( \widehat{\theta} - \theta_0 )$

половина миновать

1

Возможно, полезно: Майкл Черник предоставил краткую интуицию в ответ на мой связанный здесь вопрос. stats.stackexchange.com/questions/289236/... )

половина проход

Почему данные должны быть пересчитаны при нулевой гипотезе при тестировании гипотезы при начальной загрузке?

Ответы: