Какая доля повторных экспериментов будет иметь величину эффекта в пределах 95% доверительного интервала первого эксперимента?

12

Давайте придерживаться идеальной ситуации со случайной выборкой, гауссовым населением, равными дисперсиями, без P-хакерства и т. Д.

Шаг 1. Вы проводите эксперимент, скажем, сравнивая два выборочных средних, и вычисляете 95% доверительный интервал для разницы между двумя совокупными средними.

Шаг 2. Вы проводите еще много экспериментов (тысячи). Разница между средними значениями будет варьироваться от эксперимента к эксперименту из-за случайной выборки.

Вопрос: Какая доля разницы между средними из набора экспериментов на шаге 2 будет лежать в пределах доверительного интервала на шаге 1?

Это не может быть ответа. Все зависит от того, что произошло на шаге 1. Если этот эксперимент на шаге 1 был очень нетипичным, ответ на вопрос может быть очень низким.

Итак, представьте, что оба шага повторяются много раз (шаг 2 повторяется много раз). Теперь, я думаю, можно предположить, что доля повторных экспериментов в среднем будет иметь величину эффекта в пределах 95% доверительного интервала первого эксперимента.

Кажется, что ответ на эти вопросы должен быть понят, чтобы оценить воспроизводимость исследований, очень горячая область в настоящее время.

Харви Мотульский
источник
Для каждого исходного (шаг 1) эксперимента определите как долю последующих (шаг 2) результатов, которые дают результаты в пределах доверительного интервала исходного результата. Вы хотите вычислить эмпирическое распределение ? х я хixix
Мэтью Ганн
Да, вы понимаете, о чем я спрашиваю
Харви Мотульский
@MatthewGunn спросил, хотите ли вы эмпирическое распределение «доли захвата» для будущих наблюдений. В вашем посте спрашивалось: «... я мог бы подумать, что можно предположить, какая доля повторных экспериментов в среднем имеет величину эффекта в пределах 95% доверительного интервала первого эксперимента» . Это не распределение, а ожидаемое значение (среднее).
Анализ Whuber великолепен, но если вам нужна цитата, то вот статья, в которой подробно обсуждается именно этот вопрос: Cumming & Maillardet, 2006, Доверительные интервалы и тиражирование: куда пойдет следующее значение? , Они называют это процентом захвата доверительного интервала.
говорит амеба: восстанови Монику

Ответы:

12

Анализ

Поскольку это концептуальный вопрос, для простоты давайте рассмотрим ситуацию, в которой доверительный интервал строится для среднего с использованием случайная выборка размера и вторая случайная выборка взяты из размера , все из того же нормального распределения. (Если вы , как вы можете заменить s значениями из Студенческого распределения степенями свободы, а на следующий анализ не изменится.)[ ˉ x ( 1 ) + Z α / 2 s ( 1 ) / 1αμx(1)nx(2)m(μ,σ2)Ztn-1

[x¯(1)+Zα/2s(1)/n,x¯(1)+Z1α/2s(1)/n]
μx(1)nx(2)m(μ,σ2)Ztn1

Вероятность того, что среднее значение второй выборки находится в пределах КИ, определяемой первой,

Pr(x¯(1)+Zα/2ns(1)x¯(2)x¯(1)+Z1α/2ns(1))=Pr(Zα/2ns(1)x¯(2)x¯(1)Z1α/2ns(1)).

Поскольку среднее значение первого образца не зависит от стандартного отклонения первого образца (это требует нормальности), а второе значение выборки не зависит от первого, разница в выборке означает не зависит от . Более того, для этого симметричного интервала . Поэтому, записывая для случайной величины и возводя в квадрат оба неравенства, рассматриваемая вероятность равнасx¯(1) U= ˉ x ( 2 ) - ˉ x ( 1 ) s ( 1 ) Z α / 2 =- Z 1 - α / 2 S s ( 1 )s(1)U=x¯(2)x¯(1)s(1)Zα/2=Z1α/2Ss(1)

Pr(U2(Z1α/2n)2S2)=Pr(U2S2(Z1α/2n)2).

Законы ожидания подразумевают, что имеет среднее значение и дисперсию0U0

Var(U)=Var(x¯(2)x¯(1))=σ2(1m+1n).

Поскольку является линейной комбинацией нормальных переменных, оно также имеет нормальное распределение. Поэтому равно раз переменной . Мы уже знали, что является раз переменной . Следовательно, в раз превышает переменную с распределением . Требуемая вероятность определяется распределением F какU 2 σ 2 ( 1UU2χ2(1σ2(1n+1m)S 2 σ 2 / n χ 2 ( n - 1 ) U 2 / S 2 1 / n + 1 / m F ( 1 , n - 1 )χ2(1)S2σ2/nχ2(n1)U2/S21/n+1/mF(1,n1)

(1)F1,n1(Z1α/221+n/m).

обсуждение

Интересный случай, когда размер второй выборки такой же, как и у первой, так что и только и определяют вероятность. Здесь приведены значения зависимости от для .n α ( 1 ) α n = 2 , 5 , 20 , 50n/m=1nα(1)αn=2,5,20,50

фигура

Графики возрастают до предельного значения при каждом с ростом . Традиционный размер теста отмечен вертикальной серой линией. Для больших значений предельный шанс для составляет около .n α = 0,05 n = m α = 0,05 85 %αnα=0.05n=mα=0.0585%

Понимая этот предел, мы рассмотрим детали небольших размеров выборки и лучше поймем суть вопроса. По мере роста распределение приближается к распределению . В терминах стандартного нормального распределения вероятность приближаетсяF χ 2 ( 1 ) Φ ( 1 )n=mFχ2(1)Φ(1)

Φ(Z1α/22)Φ(Zα/22)=12Φ(Zα/22).

Например, с , и . Следовательно, предельное значение, достигаемое кривыми при при увеличении будет . Вы можете видеть, что он был почти достигнут для (где вероятность составляет .)α=0.05Zα/2/21.96/1.411.386Φ(1.386)0.083α=0.05n12(0.083)=10.166=0.834n=500.8383

Для малых соотношение между и дополнительной вероятностью - риск того, что CI не покрывает второе среднее значение - почти идеально является степенным законом. αα Еще один способ выразить это заключается в том, что логарифмическая вероятность является почти линейной функцией . Ограничивающие отношения примерноlogα

log(2Φ(Zα/22))1.79712+0.557203log(20α)+0.00657704(log(20α))2+

Другими словами, для больших и где-нибудь около традиционного значения , будет близко кn=mα0.05(1)

10.166(20α)0.557.

(Это очень напоминает мне анализ перекрывающихся доверительных интервалов, который я разместил на /stats//a/18259/919 . Действительно, магическая сила там, , почти аналогична магической силе. здесь . В этот момент вы должны быть в состоянии интерпретировать этот анализ с точки зрения воспроизводимости экспериментов.)1.910.557


Результаты эксперимента

Эти результаты подтверждаются простым моделированием. Следующий Rкод возвращает частоту покрытия, вероятность, вычисленную с помощью , и Z-оценку, чтобы оценить, насколько они различаются. Z-показатели обычно меньше , независимо от (или даже от того, вычисляется ли или CI), что указывает на правильность формулы .2 n , m , μ , σ , α Z t ( 1 )(1)2n,m,μ,σ,αZt(1)

n <- 3      # First sample size
m <- 2      # Second sample size
sigma <- 2 
mu <- -4
alpha <- 0.05
n.sim <- 1e4
#
# Compute the multiplier.
#
Z <- qnorm(alpha/2)
#Z <- qt(alpha/2, df=n-1) # Use this for a Student t C.I. instead.
#
# Draw the first sample and compute the CI as [l.1, u.1].
#
x.1 <- matrix(rnorm(n*n.sim, mu, sigma), nrow=n)
x.1.bar <- colMeans(x.1)
s.1 <- apply(x.1, 2, sd)
l.1 <- x.1.bar + Z * s.1 / sqrt(n)
u.1 <- x.1.bar - Z * s.1 / sqrt(n)
#
# Draw the second sample and compute the mean as x.2.
#
x.2 <- colMeans(matrix(rnorm(m*n.sim, mu, sigma), nrow=m))
#
# Compare the second sample means to the CIs.
#
covers <- l.1 <= x.2 & x.2 <= u.1
#
# Compute the theoretical chance and compare it to the simulated frequency.
#
f <- pf(Z^2 / ((n * (1/n + 1/m))), 1, n-1)
m.covers <- mean(covers)
(c(Simulated=m.covers, Theoretical=f, Z=(m.covers - f)/sd(covers) * sqrt(length(covers))))
Whuber
источник
Вы говорите, что использование t вместо z не будет иметь большого значения. Я верю тебе, но еще не проверил. При небольшом размере выборки два критических значения могут сильно различаться, и распределение t является правильным способом вычисления КИ. Почему вы предпочитаете использовать Z ??
Харви Мотульский,
Это чисто иллюстративно, а проще. Когда вы используете интересно, что кривые на рисунке начинаются высоко и опускаются до своего предела. В частности, вероятность получения значительного результата в этом случае намного выше для маленьких образцов, чем для больших! Обратите внимание, что проверять нечего, потому что вы можете интерпретировать как процентную точку соответствующего дистрибутива Student t (или любого другого дистрибутива, который вы можете назвать). Ничего не меняется в анализе. Если вы хотите увидеть конкретные эффекты, раскомментируйте строку в коде. t Z αZtZαqt
whuber
1
+1. Это отличный анализ (и в вашем ответе слишком мало положительных отзывов). Я только что натолкнулся на статью, в которой очень подробно обсуждается этот вопрос, и я подумал, что вас это может заинтересовать: Cumming & Maillardet, 2006, Доверительные интервалы и тиражирование: куда пойдет следующее значение? , Они называют это процентом захвата доверительного интервала.
амеба говорит восстановить монику
@ Amoeba Спасибо за ссылку. Я особенно ценю один общий вывод: «Репликация является центральной в научном методе, и исследователи не должны закрывать на это глаза только потому, что это делает характерной неопределенность одного исследования».
whuber
1
Обновление: Благодаря постоянной дискуссии в родственной теме, теперь я считаю , мои рассуждения в приведенном выше комментарии было не правильно. 95% ДИ имеют 83% «захвата репликации», но это утверждение о повторной выборке и не может быть интерпретировано как предоставление вероятности, обусловленной одним конкретным доверительным интервалом, по крайней мере, без дополнительных предположений. (Возможно, и этот, и предыдущие комментарии лучше удалить, чтобы не запутывать других читателей.)
говорит амеба Восстановить Монику
4

[Отредактировано, чтобы исправить ошибку, указанную WHuber.]

Я изменил R-код @ Whuber, чтобы использовать распределение t и график покрытия в зависимости от размера выборки. Результаты ниже. При большом размере выборки результаты соответствуют WHuber'ам.

введите описание изображения здесь

А вот адаптированный R-код, запускаемый дважды с альфа-значением, установленным на 0,01 или 0,05.

sigma <- 2 
mu <- -4
alpha <- 0.01
n.sim <- 1e5
#
# Compute the multiplier.

for (n in c(3,5,7,10,15,20,30,50,100,250,500,1000))
{
   T <- qt(alpha/2, df=n-1)     
# Draw the first sample and compute the CI as [l.1, u.1].
#
x.1 <- matrix(rnorm(n*n.sim, mu, sigma), nrow=n)
x.1.bar <- colMeans(x.1)
s.1 <- apply(x.1, 2, sd)
l.1 <- x.1.bar + T * s.1 / sqrt(n)
u.1 <- x.1.bar - T * s.1 / sqrt(n)
#
# Draw the second sample and compute the mean as x.2.
#
x.2 <- colMeans(matrix(rnorm(n*n.sim, mu, sigma), nrow=n))
#
# Compare the second sample means to the CIs.
#
covers <- l.1 <= x.2 & x.2 <= u.1
#
Coverage=mean(covers)

print (Coverage)

}

А вот и файл GraphPad Prism , из которого сделан график.

Харви Мотульский
источник
Я полагаю, что ваши графики не используют распределение t из-за ошибки: вы устанавливаете значение Tвне цикла! Если вы хотите увидеть правильные кривые, просто нарисуйте их напрямую, используя теоретический результат в моем ответе, как указано в конце моего Rкода (вместо того, чтобы полагаться на смоделированные результаты):curve(pf(qt(.975, x-1)^2 / ((x * (1/x + 1/x))), 1, x-1), 2, 1000, log="x", ylim=c(.8,1), col="Blue"); curve(pf(qt(.995, x-1)^2 / ((x * (1/x + 1/x))), 1, x-1), add=TRUE, col="Red")
whuber
1
@whuber. Хлоп! Конечно ты прав. Затруднительный. Я исправил это. Как вы указали, охват выше с крошечными размерами выборки. (Я исправил симуляции и не пробовал вашу теоретическую функцию.)
Харви Мотульский
Я рад, что вы это исправили, потому что очень интересно, насколько велик охват для небольших выборок. Мы могли бы также перевернуть ваш вопрос и использовать формулу, чтобы определить, какое значение использовать, если мы хотим заверить (до проведения каких-либо экспериментов) с вероятностью (скажем), что среднее значение второй эксперимент будет находиться в двухстороннем доверительном интервале определенном по второму. Это, как обычная практика, может быть одним из интригующих способов ответить на некоторую критику НХСТ. p = 0,95 1 - αZα/2p=0.951α
whuber
@whuber Я думаю, что следующим шагом будет посмотреть на распределение освещения. Пока что у нас есть среднее покрытие (среднее по многим первым экспериментам, со средним по многим вторым экспериментам в каждом). Но в зависимости от того, что является первым экспериментом, в некоторых случаях средний охват будет плохим. Было бы интересно посмотреть раздачу. Я пытаюсь выучить R достаточно хорошо, чтобы это выяснить.
Харви Мотульский
Что касается распределений, см. Статью, на которую я ссылался, в комментариях выше.
говорит амеба: восстанови Монику