контекст
Это несколько похоже на этот вопрос , но я не думаю, что это точная копия.
Когда вы смотрите, как инструкции о том, как выполнить тест гипотезы начальной загрузки, обычно утверждается, что можно использовать эмпирическое распределение для доверительных интервалов, но что вам нужно правильно запустить загрузку из распределения при нулевой гипотезе, чтобы получить p- значение. В качестве примера см. Принятый ответ на этот вопрос . Похоже, что общий поиск в интернете приводит к подобным ответам.
Причина, по которой не используется значение p, основанное на эмпирическом распределении, заключается в том, что в большинстве случаев у нас нет трансляционной инвариантности.
пример
Позвольте мне привести короткий пример. У нас есть монета, и мы хотим провести односторонний тест, чтобы увидеть, если частота головок больше 0,5
Мы проводим испытаний и получаем голов. Истинное значение p для этого теста будет равно .
С другой стороны, если мы загрузим наши 14 из 20 голов, мы эффективно произведем выборку из биномиального распределения с и . Сдвигая это распределение путем вычитания 0,2, мы получим едва ли существенный результат при тестировании нашего наблюдаемого значения 0,7 против полученного эмпирического распределения.
В этом случае расхождение очень мало, но оно увеличивается, когда показатель успешности, с которым мы тестируем, приближается к 1.
Вопрос
Теперь позвольте мне перейти к реальной точке моего вопроса: тот же недостаток имеет место и для доверительных интервалов. Фактически, если доверительный интервал имеет заявленный уровень достоверности тогда доверительный интервал, не содержащий параметр в рамках нулевой гипотезы, эквивалентен отклонению нулевой гипотезы на уровне значимости .
Почему доверительные интервалы, основанные на эмпирическом распределении, широко приняты, а значение p - нет?
Есть ли более глубокая причина или люди просто не настолько консервативны с доверительными интервалами?
В этом ответе Питер Далгаард дает ответ, который, кажется, согласен с моим аргументом. Он говорит:
Нет ничего особенно плохого в этой линии рассуждений, или, по крайней мере, не намного хуже, чем расчет КИ.
Откуда (много) приходит? Это подразумевает, что генерирование p-значений таким способом немного хуже, но не раскрывает этот момент.
Последние мысли
Также в «Введении к начальной загрузке » Эфрона и Тибширани они отводят много места доверительным интервалам, но не р-значениям, если они не генерируются при правильном распределении нулевой гипотезы, за исключением одной одноразовой строки об общей эквивалентности доверительные интервалы и значения p в главе о тестировании перестановок.
Давайте также вернемся к первому вопросу, который я связал. Я согласен с ответом Майкла Черника, но он также утверждает, что и доверительные интервалы, и значения p, основанные на эмпирическом распределении начальной загрузки, одинаково ненадежны в некоторых сценариях. Это не объясняет, почему многие люди говорят вам, что интервалы в порядке, а значения p - нет.
Ответы:
Как сказал @MichaelChernick в ответ на комментарий к своему ответу на связанный вопрос :
Таким образом, этот ответ будет касаться двух связанных с этим проблем: (1) почему представления результатов начальной загрузки, по-видимому, чаще указывают доверительные интервалы (CI), а не p-значения , как предлагается в вопросе, и (2) когда могут оба значения p- value и CI, определяемый при начальной загрузке, может считаться ненадежным, что требует альтернативного подхода.
Я не знаю данных, которые конкретно подтверждают утверждение в этом вопросе по первому вопросу. Возможно, на практике многие точечные оценки, полученные при начальной загрузке, (или, по крайней мере, кажутся таковыми) настолько далеки от границ решения теста, что мало интересуются p- значением соответствующей нулевой гипотезы, причем основной интерес представляют сама точечная оценка и некоторая разумная мера величины его вероятной изменчивости.
Что касается второй проблемы, многие практические приложения включают «симметричное распределение статистики испытаний, сводную статистику испытаний, применение CLT, отсутствие или несколько параметров помех и т. Д.» (Как в комментарии @XavierBourretSicotte выше), для которого нет особых трудностей. Тогда возникает вопрос, как обнаружить потенциальные отклонения от этих условий и как с ними бороться, когда они возникают.
Эти потенциальные отклонения от идеального поведения были оценены в течение десятилетий, с несколькими подходами начальной загрузки CI, разработанными рано, чтобы иметь дело с ними. Начальный загрузчик Studentized помогает обеспечить основную статистику, а метод BCa учитывает как смещение, так и асимметрию с точки зрения получения более надежного КИ из бутстрапов. Также может помочь стабилизирующее дисперсию преобразование данных перед определением начальной загрузки CI с последующим обратным преобразованием в исходный масштаб.
Пример в этом вопросе по отбору образцов из 14 голов из 20 бросков из честной монеты хорошо обрабатывается с помощью CI из метода BCa; в R:
Другие оценки CI представляют отмеченную проблему, заключающуюся в том, что она очень близка к значению или составляет 10 голов на 20 бросков. Индекс BCA CI учитывает асимметрию (представленную биномиальной выборкой вне четных разностей), поэтому он включает в себя популяционное значение 10.
Но вы должны искать такие отклонения от идеального поведения, прежде чем вы сможете воспользоваться этими решениями. Как и во многих статистических практиках, ключевым моментом может быть не просто подключение к алгоритму, а анализ данных. Например, этот вопрос о CI для смещенного результата начальной загрузки показывает результаты для первых 3 CI, показанных в приведенном выше коде, но исключая BCa CI. Когда я попытался воспроизвести анализ, показанный в этом вопросе, чтобы включить BCa CI, я получил результат:
где «w» участвует в коррекции смещения. Рассматриваемая статистика имеет фиксированное максимальное значение, и оценка подключаемого модуля, которая была загружена, также была изначально смещена. Получение такого результата должно указывать на то, что обычные предположения, лежащие в основе начальной загрузки CI, нарушаются.
Анализ ключевого количества позволяет избежать таких проблем; даже если эмпирическое распределение не может иметь полезной строго ключевой статистики, важная цель - максимально приблизиться к нему. Последние несколько абзацев этого ответа содержат ссылки на дополнительные средства, такие как сводные графики для оценки с помощью начальной загрузки, близка ли статистика (возможно, после некоторого преобразования данных) к основной, и дорогостоящий, но потенциально решающий двойной загрузчик.
источник