Непараметрические значения p начальной загрузки в сравнении с доверительными интервалами

11

контекст

Это несколько похоже на этот вопрос , но я не думаю, что это точная копия.

Когда вы смотрите, как инструкции о том, как выполнить тест гипотезы начальной загрузки, обычно утверждается, что можно использовать эмпирическое распределение для доверительных интервалов, но что вам нужно правильно запустить загрузку из распределения при нулевой гипотезе, чтобы получить p- значение. В качестве примера см. Принятый ответ на этот вопрос . Похоже, что общий поиск в интернете приводит к подобным ответам.

Причина, по которой не используется значение p, основанное на эмпирическом распределении, заключается в том, что в большинстве случаев у нас нет трансляционной инвариантности.

пример

Позвольте мне привести короткий пример. У нас есть монета, и мы хотим провести односторонний тест, чтобы увидеть, если частота головок больше 0,5

Мы проводим испытаний и получаем голов. Истинное значение p для этого теста будет равно .n=20k=14p=0.058

С другой стороны, если мы загрузим наши 14 из 20 голов, мы эффективно произведем выборку из биномиального распределения с и . Сдвигая это распределение путем вычитания 0,2, мы получим едва ли существенный результат при тестировании нашего наблюдаемого значения 0,7 против полученного эмпирического распределения.n=20p=1420=0.7

В этом случае расхождение очень мало, но оно увеличивается, когда показатель успешности, с которым мы тестируем, приближается к 1.

Вопрос

Теперь позвольте мне перейти к реальной точке моего вопроса: тот же недостаток имеет место и для доверительных интервалов. Фактически, если доверительный интервал имеет заявленный уровень достоверности тогда доверительный интервал, не содержащий параметр в рамках нулевой гипотезы, эквивалентен отклонению нулевой гипотезы на уровне значимости .α1α

Почему доверительные интервалы, основанные на эмпирическом распределении, широко приняты, а значение p - нет?

Есть ли более глубокая причина или люди просто не настолько консервативны с доверительными интервалами?

В этом ответе Питер Далгаард дает ответ, который, кажется, согласен с моим аргументом. Он говорит:

Нет ничего особенно плохого в этой линии рассуждений, или, по крайней мере, не намного хуже, чем расчет КИ.

Откуда (много) приходит? Это подразумевает, что генерирование p-значений таким способом немного хуже, но не раскрывает этот момент.

Последние мысли

Также в «Введении к начальной загрузке » Эфрона и Тибширани они отводят много места доверительным интервалам, но не р-значениям, если они не генерируются при правильном распределении нулевой гипотезы, за исключением одной одноразовой строки об общей эквивалентности доверительные интервалы и значения p в главе о тестировании перестановок.

Давайте также вернемся к первому вопросу, который я связал. Я согласен с ответом Майкла Черника, но он также утверждает, что и доверительные интервалы, и значения p, основанные на эмпирическом распределении начальной загрузки, одинаково ненадежны в некоторых сценариях. Это не объясняет, почему многие люди говорят вам, что интервалы в порядке, а значения p - нет.

Erik
источник
Я начинаю вознаграждение по этому вопросу, поскольку мне очень интересно получить ясность о том, как и когда можно использовать загрузочные КИ для принятия / отклонения гипотезы. Возможно, вы могли бы перефразировать / переформатировать свой вопрос, чтобы сделать его более лаконичным и привлекательным? Благодаря !
Ксавье Бурре Сикот
Я думаю, что большинство людей согласятся с тем, что, когда применяются следующие допущения, использование CI для проверки гипотезы в порядке: симметричное распределение статистики испытаний, сводная статистика испытаний, применение CLT, отсутствие или несколько параметров помех и т. Д., Но что происходит, когда статистика странно или не доказано, что имеет решающее значение. Вот реальный пример, над которым я работаю: например, разность двух выборок между 75-м процентилем статистики отношений (отношение двух сумм)
Ксавье Бурре Сикотт
Разве простой ответ не состоит в том, что ясно, как делать выборку при нулевой гипотезе, поэтому есть альтернативный метод, который явно лучше? Выборка под начальной загрузкой обычно происходит при эмпирическом распределении, так что это настоящий механизм генерации данных, так что его явно не следует использовать вместо простой выборки под нулевым значением. Начальная загрузка CI обнаруживается путем инвертирования распределения выборки в соответствии с механизмом генерации истинных данных. Это правда, что CI может работать не очень хорошо, но, как сказал Далгаард, не всегда очевидно, как это исправить.
Jsk
Я должен уточнить, что эмпирическое распределение является лишь приближением истинного механизма генерирования данных. Степень, в которой он не отражает правды, отрицательно повлияет на загруженный CI в неизвестных направлениях, что приведет к охвату менее 95%.
Jsk
1
Выборка под нулевым значением ясна, когда тест представляет собой разницу средних значений, но во многих случаях неясно, как воспроизвести нулевое значение ... например, нулевое значение состоит в том, что 75-й процентиль двух соотношений одинаков ... как мне сдвинуть числители и знаменатели отношений в каждом образце, чтобы получить это? Кроме того, как я могу быть уверен, что сдвиг компонентов отношения фактически воспроизводит ноль?
Ксавье Бурре Сикотт

Ответы:

3

Как сказал @MichaelChernick в ответ на комментарий к своему ответу на связанный вопрос :

В целом, между доверительными интервалами и проверками гипотез 1-1. Например, 95% доверительный интервал для параметра модели представляет область отсутствия отклонения для соответствующего теста гипотезы уровня 5% относительно значения этого параметра. Нет никаких требований к форме распределения населения. Очевидно, что если он применяется к доверительным интервалам в целом, он будет применяться к доверительным интервалам начальной загрузки.

Таким образом, этот ответ будет касаться двух связанных с этим проблем: (1) почему представления результатов начальной загрузки, по-видимому, чаще указывают доверительные интервалы (CI), а не p-значения , как предлагается в вопросе, и (2) когда могут оба значения p- value и CI, определяемый при начальной загрузке, может считаться ненадежным, что требует альтернативного подхода.

Я не знаю данных, которые конкретно подтверждают утверждение в этом вопросе по первому вопросу. Возможно, на практике многие точечные оценки, полученные при начальной загрузке, (или, по крайней мере, кажутся таковыми) настолько далеки от границ решения теста, что мало интересуются p- значением соответствующей нулевой гипотезы, причем основной интерес представляют сама точечная оценка и некоторая разумная мера величины его вероятной изменчивости.

Что касается второй проблемы, многие практические приложения включают «симметричное распределение статистики испытаний, сводную статистику испытаний, применение CLT, отсутствие или несколько параметров помех и т. Д.» (Как в комментарии @XavierBourretSicotte выше), для которого нет особых трудностей. Тогда возникает вопрос, как обнаружить потенциальные отклонения от этих условий и как с ними бороться, когда они возникают.

Эти потенциальные отклонения от идеального поведения были оценены в течение десятилетий, с несколькими подходами начальной загрузки CI, разработанными рано, чтобы иметь дело с ними. Начальный загрузчик Studentized помогает обеспечить основную статистику, а метод BCa учитывает как смещение, так и асимметрию с точки зрения получения более надежного КИ из бутстрапов. Также может помочь стабилизирующее дисперсию преобразование данных перед определением начальной загрузки CI с последующим обратным преобразованием в исходный масштаб.

Пример в этом вопросе по отбору образцов из 14 голов из 20 бросков из честной монеты хорошо обрабатывается с помощью CI из метода BCa; в R:

> dat14 <- c(rep(1,14),rep(0,6))
> datbf <- function(data,index){d <- data[index]; sum(d)}
> set.seed(1)
> dat14boot <- boot(dat14,datbf,R=999)
> boot.ci(dat14boot)
BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
Based on 999 bootstrap replicates

CALL : 
boot.ci(boot.out = dat14boot)

Intervals : 
Level      Normal              Basic         
95%     (9.82, 18.22 )   (10.00, 18.00 )  

Level     Percentile            BCa          
95%       (10, 18 )         ( 8, 17 )  
Calculations and Intervals on Original Scale

Другие оценки CI представляют отмеченную проблему, заключающуюся в том, что она очень близка к значению или составляет 10 голов на 20 бросков. Индекс BCA CI учитывает асимметрию (представленную биномиальной выборкой вне четных разностей), поэтому он включает в себя популяционное значение 10.

Но вы должны искать такие отклонения от идеального поведения, прежде чем вы сможете воспользоваться этими решениями. Как и во многих статистических практиках, ключевым моментом может быть не просто подключение к алгоритму, а анализ данных. Например, этот вопрос о CI для смещенного результата начальной загрузки показывает результаты для первых 3 CI, показанных в приведенном выше коде, но исключая BCa CI. Когда я попытался воспроизвести анализ, показанный в этом вопросе, чтобы включить BCa CI, я получил результат:

> boot.ci(boot(xi,H.boot,R=1000))
Error in bca.ci(boot.out, conf, index[1L], L = L, t = t.o, t0 = t0.o,  : 
estimated adjustment 'w' is infinite

где «w» участвует в коррекции смещения. Рассматриваемая статистика имеет фиксированное максимальное значение, и оценка подключаемого модуля, которая была загружена, также была изначально смещена. Получение такого результата должно указывать на то, что обычные предположения, лежащие в основе начальной загрузки CI, нарушаются.

Анализ ключевого количества позволяет избежать таких проблем; даже если эмпирическое распределение не может иметь полезной строго ключевой статистики, важная цель - максимально приблизиться к нему. Последние несколько абзацев этого ответа содержат ссылки на дополнительные средства, такие как сводные графики для оценки с помощью начальной загрузки, близка ли статистика (возможно, после некоторого преобразования данных) к основной, и дорогостоящий, но потенциально решающий двойной загрузчик.

магистр педагогических наук
источник
Спасибо Эдм! Если между CI и проверкой гипотезы есть отношение 1-1, то почему начальное тестирование обычно включает смещение наборов данных для воспроизведения нулевого значения? Делая это, разве мы не получаем другие результаты, чем то, что мы получили бы, вычисляя, например, CI распределения разницы?
Ксавье Бурре Сикотт
@XavierBourretSicotte Я не думаю, что это совершенно правильно, что «начальное тестирование обычно включает смещение наборов данных для воспроизведения нулевого значения». Каждый образец начальной загрузки - это попытка воспроизвести исходную выборку / эксперимент, используя имеющуюся выборку для представления основной популяции. Однако, если рассматриваемая статистика не является ключевой, то CI, разработанный на загруженных выборках, не будет представлять CI, разработанный на основной популяции. Таким образом, вам нужно скорректировать распределение статистики в соответствии с тем, что было бы при нулевом, с помощью BCa или других подходов.
EdM