Я смотрел на эту страницу о реализации Монте-Карло теста Лиллефорса. Я не понимаю это предложение:
В этом расчете из моделирования есть случайная ошибка. Однако из-за хитрости добавления 1 к числителю и знаменателю при вычислении значения P его можно использовать прямо, без учета случайности.
Что они подразумевают под хитростью добавления 1 к числителю и знаменателю?
Соответствующий фрагмент кода находится здесь:
n <- length(x)
nsim <- 4999
d.star <- double(nsim)
for (i in 1:nsim) {
x.star <- rnorm(n)
d.star[i] <- fred(x.star)
}
hist(d.star)
abline(v = d.hat, lty = 2)
## simulation-derived P-value
pval <- (sum(d.star > d.hat) + 1) / (nsim + 1)
monte-carlo
lilliefors
Аксакал
источник
источник
Ответы:
Объяснение на указанной странице
Чтобы понять это, мы должны взглянуть на код, ключевые строки которого (значительно сокращены)
Существенная проблема заключается в том, что код не соответствует кавычке. Как мы можем примирить их? Одна попытка начинается со второй половины цитаты. Мы можем интерпретировать процедуру как включающую следующие шаги:
Collect независимо друг от друга и одинаково распределенные данные согласно некоторому вероятностному закону . Примените тестовую процедуру (реализованную в коде как ), чтобы получить число . G t T 0 = t ( X 1 , … , X n )Икс1, X2, … , XN грамм T T0= т ( Х1, … , XN)
fred
Сформировать с помощью компьютера сравнимых наборов данных, каждый из размера , в соответствии с нулевой гипотезой с вероятностью закона . Примените к каждому такому набору данных, чтобы получить чисел . n F t N T 1 , T 2 , … , T NN= nсим N F T N T1, Т2, … , ТN
Вычислить
(« » - это индикаторная функция, реализованная посредством векторного сравнения в коде.) Правая часть понимается как случайная в силу одновременной случайности (фактической статистики теста) и случайности ( смоделированная тестовая статистика). т 0 т яя T0 Tя
d.star > d.hat
Для того, чтобы сказать , что данные соответствуют нулевой гипотезы является утверждение , что . Выберите размер теста , . Умножение обеих сторон на и вычитание показывает, что вероятность того, что для любого числа - это вероятность того, что не более из превысит . Это говорит лишь о том, что находится в верхней части отсортированного набора всей статистики испытаний . Так как (по конструкции)α 0 < α < 1 N + 1 1 P ≤ α α ( N + 1 ) α - 1 T i T 0 T 0 ( N + 1 ) α N + 1 T 0 T i F ⌊ ( N + 1 ) α ⌋ Pr ( P ≤ α ) = ⌊F= G α 0 < α < 1 N+ 1 1 п≤ α α ( N+ 1 ) α - 1 Tя T0 T0 ( N+ 1 ) α N+ 1 T0 не зависит от всех , когда - непрерывное распределение, этот шанс будет частью общего числа, представленного целой частью ; то есть и он будет точно равен ему при условии - целое число ; то есть когда .Tя F ⌊ ( N+ 1 ) α ⌋ (N+1)& alphaк& alpha=K/(N+1)
Это, безусловно, одна из вещей, которые мы хотим быть верными для любой величины, которая заслуживает того, чтобы называться «p-значением»: она должна иметь равномерное распределение на . При условии, что достаточно велико, так что любая близка к некоторой доле формы , эта будет близка к равномерной распределение. (Чтобы узнать о дополнительных условиях, необходимых для p-значения, прочитайте диалог, который я разместил на тему p-значений. )N + 1 α k / ( N + 1 ) = k / ( n sim + 1 ) P[ 0 , 1 ] N+ 1 α к / ( Н+ 1 ) = k / ( nсим+ 1 ) п
Очевидно, что цитата должна использовать « » вместо « », где бы он ни появлялся.n simNсим+ 1 Nсим
источник
Я считаю, что здесь 1 добавляется к обоим, потому что наблюдаемая статистика включена в эталонное распределение; если это так, то это из-за «хотя бы такой большой» части определения p-значения.
Я не знаю наверняка, потому что текст, кажется, говорит что-то другое, но именно поэтому я бы сделал это.
источник