Связь между доверительным интервалом и проверкой статистической гипотезы для t-критерия

31

Хорошо известно, что доверительные интервалы и проверка статистической гипотезы тесно связаны. Мои вопросы направлены на сравнение средств для двух групп на основе числовой переменной. Предположим, что такая гипотеза проверяется с помощью t-критерия. С другой стороны, можно рассчитать доверительные интервалы для средств обеих групп. Существует ли какая-либо связь между перекрытием доверительных интервалов и отклонением нулевой гипотезы о том, что средние значения равны (в пользу альтернативы, которая означает разные - двусторонний критерий)? Например, тест может отклонить нулевую гипотезу, если доверительные интервалы не перекрываются.

hypothesis-testing confidence-interval ЛВС
источник

31

Да, между сравнениями доверительных интервалов и проверками гипотез существует ряд простых взаимосвязей в широком диапазоне практических условий. Однако в дополнение к проверке того, что процедуры CI и t-критерий подходят для наших данных, мы должны проверить, что размеры выборки не слишком различаются и что оба набора имеют одинаковые стандартные отклонения. Мы также не должны пытаться получить высокоточные значения р из сравнения двух доверительных интервалов, но должны быть рады разработать эффективные приближения.

Пытаясь согласовать два ответа, которые уже даны (@John и @Brett), это помогает быть математически явным. Формула для симметричного двустороннего доверительного интервала, подходящая для постановки этого вопроса:

CI знак равно м \pm \frac{T_{α} (N) s}{\sqrt{N}}

$\text{CI} = m \pm \frac{t_\alpha(n) s}{\sqrt{n}}$

где - среднее значение выборки из независимых наблюдений, - стандартное отклонение выборки, - желаемый размер теста (максимальная частота ложных срабатываний), а - верхний процентиль Распределение студента t с степенями свободы. (Это небольшое отклонение от общепринятых обозначений упрощает изложение, устраняя необходимость суетиться над различием против , что в любом случае будет несущественным.) $m$ $n$ $s$ $2\alpha$ $t_\alpha(n)$ $1-\alpha$ $n-1$ $n$ $n-1$

Используя индексы и , чтобы различать два независимых наборов данных для сравнения, с , соответствующей большему из двух средств, то не -overlap доверительных интервалов выражается неравенством (нижний предел доверительного 1) (верхнего доверительного предела 2); а именно , $1$ $2$ $1$ $\gt$

м_{1} - \frac{T_{α} (N_{1}) s_{1}}{\sqrt{N_{1}}} > м_{2} + \frac{T_{α} (N_{2}) s_{2}}{\sqrt{N_{2}}},

$m_1 - \frac{t_\alpha(n_1) s_1}{\sqrt{n_1}} \gt m_2 + \frac{t_\alpha(n_2) s_2}{\sqrt{n_2}}.$

Это можно сделать, чтобы выглядеть как t-статистика соответствующего теста гипотезы (для сравнения двух средних) с простыми алгебраическими манипуляциями, давая

\frac{м_{1} - м_{2}}{\sqrt{s_{1}^{2} / N_{1} + s_{2}^{2} / N_{2}}} > \frac{s_{1} \sqrt{N_{2}} T_{α} (N_{1}) + s_{2} \sqrt{N_{1}} T_{α} (N_{2})}{\sqrt{N_{1} s_{2}^{2} + N_{2} s_{1}^{2}}},

$\frac{m_1-m_2}{\sqrt{s_1^2/n_1 + s_2^2/n_2}} \gt \frac{s_1\sqrt{n_2}t_\alpha(n_1) + s_2\sqrt{n_1}t_\alpha(n_2)}{\sqrt{n_1 s_2^2 + n_2 s_1^2}}.$

Левая часть - статистика, используемая в проверке гипотезы; обычно его сравнивают с процентилем распределения Стьюдента t с степенями свободы: то есть с . Правая часть представляет собой смещенное средневзвешенное значение исходного процентиля распределения t. $n_1+n_2$ $t_\alpha(n_1+n_2)$

Анализ до сих пор оправдывает ответ @Brett: кажется, что нет простых отношений. Однако, давайте исследуем дальше. Я вдохновлен на это, потому что, интуитивно, неперекрытие доверительных интервалов должно что-то сказать!

Во-первых, обратите внимание, что эта форма проверки гипотезы действительна только тогда, когда мы ожидаем, что и будут по крайней мере приблизительно равны. (В противном случае мы сталкиваемся с пресловутой проблемой Беренса-Фишера и ее сложностями.) После проверки приблизительного равенства мы могли бы затем создать приближенное упрощение в виде $s_1$ $s_2$ $s_i$

\frac{м_{1} - м_{2}}{s \sqrt{1 / N_{1} + 1 / N_{2}}} > \frac{\sqrt{N_{2}} T_{α} (N_{1}) + \sqrt{N_{1}} T_{α} (N_{2})}{\sqrt{N_{1} + N_{2}}},

$\frac{m_1-m_2}{s\sqrt{1/n_1 + 1/n_2}} \gt \frac{\sqrt{n_2}t_\alpha(n_1) + \sqrt{n_1}t_\alpha(n_2)}{\sqrt{n_1 + n_2}}.$

Здесь . Реально, мы не должны ожидать, что это неформальное сравнение пределов доверия будет иметь такой же размер, как . Тогда мы задаемся вопросом: существует ли такой , что правая часть (по крайней мере приблизительно) равна правильной t-статистике. А именно, для чего это тот случай, когда $s \approx s_1 \approx s_2$ $\alpha$ $\alpha'$ $\alpha'$

T_{α^{'}} (N_{1} + N_{2}) знак равно \frac{\sqrt{N_{2}} T_{α} (N_{1}) + \sqrt{N_{1}} T_{α} (N_{2})}{\sqrt{N_{1} + N_{2}}} ?

$t_{\alpha'}(n_1+n_2) = \frac{\sqrt{n_2}t_\alpha(n_1) + \sqrt{n_1}t_\alpha(n_2)}{\sqrt{n_1 + n_2}}\text{?}$

Оказывается, что для одинаковых размеров выборки и связаны (с довольно высокой точностью) степенным законом. $\alpha$ $\alpha'$ Например, вот логарифмический график этих двух случаев (самая низкая синяя линия), (средняя красная линия), (самая высокая золотая линия). Средняя зеленая пунктирная линия является приближением, описанным ниже. Прямолинейность этих кривых противоречит степенному закону. Это меняется с , но не сильно. $n_1=n_2=2$ $n_1=n_2=5$ $n_1=n_2=\infty$ $n=n_1=n_2$

Участок 1

Ответ зависит от набора , но естественно задаться вопросом, насколько он действительно меняется в зависимости от размеров выборки. В частности, можно надеяться, что для средних и больших размеров выборки (может быть, или около того) размер выборки не имеет большого значения. В этом случае мы могли бы разработать количественный способ связать с . $\{n_1, n_2\}$ $n_1 \ge 10, n_2 \ge 10$ $\alpha'$ $\alpha$

Этот подход работает, если размеры выборки не слишком отличаются друг от друга. В духе простоты я приведу сводную формулу для вычисления размера теста соответствующего размеру доверительного интервала . это $\alpha'$ $\alpha$

α^{'} \approx e α^{1.91};

$\alpha' \approx e \alpha^{1.91};$

то есть,

α^{'} \approx \exp (1 + 1.91 \log (α)) .

$\alpha' \approx \exp(1 + 1.91\log(\alpha)).$

Эта формула работает достаточно хорошо в следующих распространенных ситуациях:

Оба размера выборки близки друг к другу, , и не слишком экстремальный ( или около того). $n_1 \approx n_2$ $\alpha$ $\alpha \gt .001$
Один размер выборки примерно в три раза больше другого, и наименьший не слишком мал (примерно, больше ), и снова не слишком экстремален. $10$ $\alpha$
Один размер выборки в три раза больше другого и или около того. $\alpha \gt .02$

Относительная ошибка (правильное значение, деленное на аппроксимацию) в первой ситуации представлена здесь с нижней (синей) линией, показывающей случай , средней (красной) линией случай и верхняя (золотая) линия регистр . Интерполируя между двумя последними, мы видим, что аппроксимация превосходна для широкого диапазона практических значений когда размеры выборки умеренные (около 5-50) и в остальном достаточно хорошие. $n_1=n_2=2$ $n_1=n_2=5$ $n_1=n_2=\infty$ $\alpha$

Участок 2

Этого более чем достаточно для того, чтобы взглянуть на кучу доверительных интервалов.

Подводя итоги, можно сказать, что неспособность двух доверительных интервалов средних значений перекрывать друг друга является существенным доказательством различия средних на уровне, равном , при условии, что эти две выборки имеют примерно равные стандартные отклонения и примерно одинакового размера. $2\alpha$ $2e \alpha^{1.91}$

Я закончу с таблицей аппроксимации для общих значений . $2\alpha$

$2\alpha$ $2\alpha'$
0,1 0,02

0,05 0,005

0,01 0,0002

0,005 0,00006

Например, когда пара двусторонних 95% ДИ ( ) для образцов примерно одинакового размера не перекрывается, мы должны принять средства, чтобы значительно отличаться, . Правильное значение p (для одинаковых размеров выборки ) на самом деле лежит между ( ) и ( ). $2\alpha=.05$ $p \lt .005$ $n$ $.0037$ $n=2$ $.0056$ $n=\infty$

Этот результат оправдывает (и я надеюсь улучшить) ответ @John. Таким образом, хотя предыдущие ответы кажутся противоречивыми, оба они (по-своему) верны.

Whuber
источник

7

Нет, не просто, по крайней мере.

Однако существует точное соответствие между t-критерием разности двух средних и доверительным интервалом для разности двух средних.

Если доверительный интервал для разности между двумя средними значениями содержит ноль, t-критерий для этой разницы не сможет отклонить ноль при том же уровне достоверности. Аналогично, если доверительный интервал не содержит 0, t-критерий отклонит ноль.

Это не то же самое, что перекрытие доверительных интервалов для каждого из двух средних.

Brett
источник

Ответ @John, который в настоящее время не совсем точен в деталях, правильно указывает на то, что да, вы можете связать перекрытия элементов конфигурации с тестом p-значений. Отношения не сложнее самого t-теста. Похоже, это противоречит вашему первичному заключению, указанному в первой строке. Как бы вы решили эту разницу?

whuber

Я не думаю, что они противоречивы. Я могу добавить некоторые предостережения. Но, в общем смысле, без дополнительных предположений и знаний о параметрах за пределами представления интервала (дисперсия, размер выборки) ответ остается как есть. Нет, не просто, по крайней мере.

Бретт

5

При типичных предположениях о равной дисперсии, да, существует связь. Если столбцы перекрываются меньше, чем длина одного столбца * sqrt (2), тогда t-критерий обнаружит, что они значительно различаются при альфа = 0,05. Если концы стержней едва соприкасаются, тогда разница будет на уровне 0,01. Если доверительные интервалы для групп не равны, обычно берется среднее значение и применяется то же правило.

В качестве альтернативы, если ширина доверительного интервала вокруг одного из средних значений равна w, то наименьшая значимая разница между двумя значениями равна w * sqrt (2). Это просто, если вспомнить знаменатель в независимых группах t-критерий sqrt (2 * MSE / n) и коэффициент CI, который равен sqrt (MSE / n).

(Предполагается 95% ДИ)

Там простой документ о внесении выводов из доверительных интервалов независимых средств здесь . Он ответит на этот и многие другие связанные с вами вопросы.

Камминг Г. и Финч С. (2005, март). Вывод на глаз: доверительные интервалы и как читать картинки данных. Американский психолог , 60 (2), 170-180.

Джон
источник

2

Я считаю, что вам также нужно предположить, что две группы имеют одинаковые размеры.

whuber

грубо говоря, да ...

Джон

Связь между доверительным интервалом и проверкой статистической гипотезы для t-критерия

Ответы: