Может ли узкий доверительный интервал вокруг незначительного эффекта свидетельствовать об отсутствии?

9

Очевидно, ошибочно полагать, что отказ от отклонения нулевого значения подразумевает, что нулевое значение истинно. Но в случае , когда нуль не отвергается и соответствующий доверительный интервал (ДИ) узок и вокруг 0, делает это не дает доказательства для нуля?

Я придерживаюсь двух соображений: да, на практике это послужит доказательством того, что эффект более или менее равен 0. Однако в строгой структуре проверки гипотез кажется, что нулевые эффекты просто непригодны для вывода, как и их соответствующие КИ. Так в чем же смысл КИ, когда его точечная оценка несущественна? Это также непригодно для умозаключения или его можно использовать, как в предыдущем примере, для количественной оценки свидетельства нуля?

Ответы с научными ссылками приветствуются.

ATJ
источник
Вероятно, вас заинтересуют тестирование на эквивалентность и вопросы о его подробностях на сайте. См. Как проверить гипотезу об отсутствии групповых различий? для одного примера.
Энди W
1
Если вы имеете в виду доказательство для нулевой точки против альтернативы чему-либо еще ... тогда нет. Бесчисленное бесконечное число альтернатив между наблюдаемым очень малым значением и нулем все еще будет более вероятным, чем нулевое. Если вы имеете в виду что-то еще, то, возможно, в некоторых обстоятельствах.
Glen_b
Да, тогда это будет эквивалентное испытание, термин, о котором я еще не слышал.
ATJ

Ответы:

6

Короче говоря: да.

Как писал Энди У., заключение о том, что параметр равен указанному значению (в вашем случае размер эффекта равен нулю), является вопросом проверки эквивалентности.

В вашем случае этот узкий доверительный интервал может фактически указывать на то, что эффект практически равен нулю, то есть нулевая гипотеза эквивалентности может быть отклонена. Значительная эквивалентность на уровне обычно показана обычным интервалом доверительности, который полностью лежит в заранее заданном интервале эквивалентности. Этот интервал эквивалентности учитывает, что вы можете пренебречь действительно крошечными отклонениями, то есть все размеры эффекта в пределах этого интервала эквивалентности можно считать практически эквивалентными. (Статистическая проверка на равенство невозможна.)1 - 2 α1α12α

Пожалуйста, прочитайте «Тестирование статистических гипотез об эквивалентности и неполноценности» Стефана Веллека для дальнейшего прочтения, самой полной книги по этому вопросу.

Хорст Грюнбуш
источник
2

Нулевые гипотезы иллюстрируют значение «Все модели неверны, но некоторые полезны». Они, вероятно, наиболее полезны, если не понимать их буквально и вне контекста, то есть важно помнить эпистемологическую цель нуля. Если это может быть сфальсифицировано, что является намеченной целью, тогда альтернатива становится более полезной при сравнении, хотя все еще довольно неинформативной. Если вы отклоняете null, вы говорите, что эффект, вероятно, не равен нулю (или что-то еще - нулевые гипотезы могут указывать и другие значения для фальсификации) ... так что же тогда?

Размер эффекта, который вы рассчитываете, является вашей наилучшей точечной оценкой параметра совокупности. Как правило, шансы должны быть одинаково хорошими, потому что это завышение или недооценка, но шансы на то, что это «бычий глаз» мертвой точки, бесконечно малы, как следует из комментария @ Glen_b. Если по какой-то странной иронии судьбы (или по построению - в любом случае, я полагаю, мы говорим гипотетически?) Ваша оценка падает прямо на , это все еще не является большим доказательством того, что параметр не является другим значением в пределах доверительный интервал. Значение доверительного интервала не изменяется в зависимости от значимости любого теста на гипотезы, за исключением случаев, когда он может изменить местоположение и ширину соответствующим образом.0.0¯

В случае, если вы не знакомы с тем, как выглядят оценки размера эффекта для выборок из (смоделированной) популяции, нулевая гипотеза которой буквально верна (или если вы еще не видели ее и просто здесь для небольшого статистического развлечения ), посмотрите танецp Джеффа Камминга из Values . В случае, если эти доверительные интервалы не достаточно узки на ваш вкус, я попытался смоделировать некоторые из моих собственных в R, используя случайно сгенерированные выборки, которые просто стесняются каждый из . Я забыл установить начальное число, но установил, а затем побежал столько раз, сколько я хотел, прежде чем закончить этот ответ, который дал мне 6000 образцов в конце. Вот гистограмма и график плотности с использованием иN ( 0 , 1 )n=1MN(0,1)x=c()x=append(x,replicate(500,cor(rnorm(999999),rnorm(999999))))hist(x,n=length(x)/100)plot(density(x))соответственно:

    

Как и следовало ожидать, есть данные о множестве ненулевых эффектов, возникающих из этих случайных выборок популяции с буквально нулевым эффектом, и эти оценки более или менее нормально распределены вокруг истинного параметра ( skew(x)= -.005, kurtosis(x)= 2.85). Представьте, что вы знали только значение вашей оценки из выборки , а не истинный параметр: почему вы ожидаете, что параметр будет ближе к нулю, чем ваша оценка, а не дальше? Ваш доверительный интервал может включать нуль, но на самом деле ноль не более правдоподобен, чем значение эквивалентного расстояния от размера эффекта вашей выборки в противоположном направлении, и другие значения могут быть более правдоподобными, чем это, особенно ваша точечная оценка!n=1M

Если на практике вы хотите продемонстрировать, что эффект более или менее равен нулю, вам необходимо определить, насколько более или менее вы склонны его игнорировать. С этими огромными выборками, которые я смоделировал, оценка наибольшей величины, которую я сгенерировал, была . При более реалистичных выборках с наибольшее число выборок из которое я нахожу, составляет . Опять же, остатки обычно распределяются, поэтому они маловероятны, но дело в том, что они неправдоподобны.n = 999 1 M | г | = .14|r|=.004n=9991M|r|=.14

CI, вероятно, более полезен для вывода, чем NHST в целом. Это не просто представление о том, насколько плоха идея предположить, что параметр ничтожно мал; это хорошая идея о том, что на самом деле является параметром. Можно все еще решить, является ли это незначительным, но также может получить представление о том, насколько незначительным это могло бы быть. Для дальнейшей пропаганды доверительных интервалов см. Cumming (2014 , 2013) .

Список литературы
- Камминг Г. (2013). Понимание новой статистики: размеры эффектов, доверительные интервалы и метаанализ . Рутледж.
- Камминг Г. (2014). Новая статистика: почему и как. Психологическая наука, 25 (7), 7–29. Получено с http://pss.sagepub.com/content/25/1/7.full.pdf+html .

Ник Стаунер
источник
Спасибо, я хорошо знаком с работой Камминга. Я полагаю, что мой вопрос был примерно таким: «если точечная оценка ES несущественна, то могут ли CI использоваться для вывода? (Или они являются« нулевыми », т. Е. Бесполезными в качестве точечной оценки)»
ATJ
1
1αα
cor.test(rnorm(9999999),rnorm(9999999)){0.00063,0.00060}r=0.00029