Давайте придерживаться идеальной ситуации со случайной выборкой, гауссовым населением, равными дисперсиями, без P-хакерства и т. Д.
Шаг 1. Вы проводите эксперимент, скажем, сравнивая два выборочных средних, и вычисляете 95% доверительный интервал для разницы между двумя совокупными средними.
Шаг 2. Вы проводите еще много экспериментов (тысячи). Разница между средними значениями будет варьироваться от эксперимента к эксперименту из-за случайной выборки.
Вопрос: Какая доля разницы между средними из набора экспериментов на шаге 2 будет лежать в пределах доверительного интервала на шаге 1?
Это не может быть ответа. Все зависит от того, что произошло на шаге 1. Если этот эксперимент на шаге 1 был очень нетипичным, ответ на вопрос может быть очень низким.
Итак, представьте, что оба шага повторяются много раз (шаг 2 повторяется много раз). Теперь, я думаю, можно предположить, что доля повторных экспериментов в среднем будет иметь величину эффекта в пределах 95% доверительного интервала первого эксперимента.
Кажется, что ответ на эти вопросы должен быть понят, чтобы оценить воспроизводимость исследований, очень горячая область в настоящее время.
источник
Ответы:
Анализ
Поскольку это концептуальный вопрос, для простоты давайте рассмотрим ситуацию, в которой доверительный интервал строится для среднего с использованием случайная выборка размера и вторая случайная выборка взяты из размера , все из того же нормального распределения. (Если вы , как вы можете заменить s значениями из Студенческого распределения степенями свободы, а на следующий анализ не изменится.)[ ˉ x ( 1 ) + Z α / 2 s ( 1 ) / √1 - α μx(1)nx(2)m(μ,σ2)Ztn-1
Вероятность того, что среднее значение второй выборки находится в пределах КИ, определяемой первой,
Поскольку среднее значение первого образца не зависит от стандартного отклонения первого образца (это требует нормальности), а второе значение выборки не зависит от первого, разница в выборке означает не зависит от . Более того, для этого симметричного интервала . Поэтому, записывая для случайной величины и возводя в квадрат оба неравенства, рассматриваемая вероятность равнасИкс¯( 1 ) U= ˉ x ( 2 ) - ˉ x ( 1 ) s ( 1 ) Z α / 2 =- Z 1 - α / 2 S s ( 1 )s( 1 ) U=x¯(2)−x¯(1) s(1) Zα/2=−Z1−α/2 S s(1)
Законы ожидания подразумевают, что имеет среднее значение и дисперсию0U 0
Поскольку является линейной комбинацией нормальных переменных, оно также имеет нормальное распределение. Поэтому равно раз переменной . Мы уже знали, что является раз переменной . Следовательно, в раз превышает переменную с распределением . Требуемая вероятность определяется распределением F какU 2 σ 2 ( 1U U2 χ2(1σ2(1n+1m) S 2 σ 2 / n χ 2 ( n - 1 ) U 2 / S 2 1 / n + 1 / m F ( 1 , n - 1 )χ2(1) S2 σ2/n χ2(n−1) U2/S2 1/n+1/m F(1,n−1)
обсуждение
Интересный случай, когда размер второй выборки такой же, как и у первой, так что и только и определяют вероятность. Здесь приведены значения зависимости от для .n α ( 1 ) α n = 2 , 5 , 20 , 50n/m=1 n α (1) α n=2,5,20,50
Графики возрастают до предельного значения при каждом с ростом . Традиционный размер теста отмечен вертикальной серой линией. Для больших значений предельный шанс для составляет около .n α = 0,05 n = m α = 0,05 85 %α n α=0.05 n=m α=0.05 85%
Понимая этот предел, мы рассмотрим детали небольших размеров выборки и лучше поймем суть вопроса. По мере роста распределение приближается к распределению . В терминах стандартного нормального распределения вероятность приближаетсяF χ 2 ( 1 ) Φ ( 1 )n=m F χ2(1) Φ (1)
Например, с , и . Следовательно, предельное значение, достигаемое кривыми при при увеличении будет . Вы можете видеть, что он был почти достигнут для (где вероятность составляет .)α=0.05 Zα/2/2–√≈−1.96/1.41≈−1.386 Φ(−1.386)≈0.083 α=0.05 n 1−2(0.083)=1−0.166=0.834 n=50 0.8383…
Для малых соотношение между и дополнительной вероятностью - риск того, что CI не покрывает второе среднее значение - почти идеально является степенным законом.α α Еще один способ выразить это заключается в том, что логарифмическая вероятность является почти линейной функцией . Ограничивающие отношения примерноlogα
Другими словами, для больших и где-нибудь около традиционного значения , будет близко кn=m α 0.05 (1)
(Это очень напоминает мне анализ перекрывающихся доверительных интервалов, который я разместил на /stats//a/18259/919 . Действительно, магическая сила там, , почти аналогична магической силе. здесь . В этот момент вы должны быть в состоянии интерпретировать этот анализ с точки зрения воспроизводимости экспериментов.)1.91 0.557
Результаты эксперимента
Эти результаты подтверждаются простым моделированием. Следующий(1) 2 n,m,μ,σ,α Z t (1)
R
код возвращает частоту покрытия, вероятность, вычисленную с помощью , и Z-оценку, чтобы оценить, насколько они различаются. Z-показатели обычно меньше , независимо от (или даже от того, вычисляется ли или CI), что указывает на правильность формулы .2 n , m , μ , σ , α Z t ( 1 )источник
qt
[Отредактировано, чтобы исправить ошибку, указанную WHuber.]
Я изменил R-код @ Whuber, чтобы использовать распределение t и график покрытия в зависимости от размера выборки. Результаты ниже. При большом размере выборки результаты соответствуют WHuber'ам.
А вот адаптированный R-код, запускаемый дважды с альфа-значением, установленным на 0,01 или 0,05.
А вот и файл GraphPad Prism , из которого сделан график.
источник
T
вне цикла! Если вы хотите увидеть правильные кривые, просто нарисуйте их напрямую, используя теоретический результат в моем ответе, как указано в конце моегоR
кода (вместо того, чтобы полагаться на смоделированные результаты):curve(pf(qt(.975, x-1)^2 / ((x * (1/x + 1/x))), 1, x-1), 2, 1000, log="x", ylim=c(.8,1), col="Blue"); curve(pf(qt(.995, x-1)^2 / ((x * (1/x + 1/x))), 1, x-1), add=TRUE, col="Red")