Доверительный интервал и неопределенность P-значения для теста перестановки

12

Я сейчас изучаю рандомизированные тесты. Мне на ум приходят два вопроса:

  1. Да, легко и интуитивно понятно, как значение p вычисляется с помощью теста рандомизации (который, я думаю, совпадает с тестом перестановки?). Тем не менее, как мы можем также генерировать 95% доверительный интервал, как мы делаем с обычными параметрическими тестами?

  2. Когда я читаю документ из Университета Вашингтона о тестах перестановки , на странице 13 есть предложение, которое гласит:

    При 1000 перестановках .... неопределенность около p = 0,05 составляет около .±1%

    Интересно, как мы получаем эту неопределенность.

Сэм
источник

Ответы:

12

Тем не менее, как мы можем также генерировать 95% доверительный интервал, как мы делаем с обычными параметрическими тестами?

Вот один из способов, которым вы можете сгенерировать интервал из теста на повторную выборку, хотя не всегда целесообразно считать его доверительным интервалом . Для конкретного примера возьмите тест на разницу в двух образцах. Подумайте о смещении второго сэмпла на (который может быть положительным или отрицательным). Тогда набор значений которые привели бы к отклонению тестом на уровне можно было бы использовать в качестве номинального доверительного интервала для разности средних.δδα1α

Некоторые авторы (например, [1], p364 et seq , [2]) называют интервал, построенный таким образом (значения параметров, не отклоняемые тестом), интервал согласных - что является лучшим названием, чем доверительный интервал для него (хотя многие люди просто игнорируют разницу, например, я полагаю, что Кокс и Хинкли называют эти доверительные интервалы), потому что подход не обязательно дает интервалы, которые имеют желаемое покрытие (во многих ситуациях можно увидеть, что так и должно быть); имя что-то говорит о том, что интервал говорит вам (интервал значений, соответствующих данным).

Гельман включает обсуждение того , почему иногда это может быть проблематично повсеместно считают их доверительные интервалы здесь .

Тем не менее, нетрудно исследовать охват при определенных наборах допущений (с помощью моделирования), и нет недостатка в людях, называющих интервалы начальной загрузки «доверительными интервалами» (даже если иногда они не имеют ничего общего с заявленным покрытием).

Более подробная информация о том, как это сделать в двух примерах разницы в средстве, обсуждается в [3], где они называются доверительными интервалами рандомизации, и делается заявление о том, когда они точны (чего я не имею). Т пытался оценить).

При 1000 перестановках .... неопределенность около p = 0,05 составляет около ± 1%.

Интересно, откуда у нас такая неопределенность?

Расчетное значение p является прямой биномиальной пропорцией. Таким образом, она имеет ту же стандартную ошибку, что и любая другая биноминальная пропорция, .p(1p)n

Таким образом, если и , стандартная ошибка наблюдаемой пропорции составляет около . ДИ будет [ В качестве альтернативы, составляет около стандартных ошибок с каждой стороны, что соответствовало бы доверительного интервала для базового р-значения чуть более ]p=0.05n=10000.006990%±1.13%±1%1.4585%

Таким образом, по крайней мере, в грубом смысле вы могли бы говорить о неопределенности, составляющей «около 1%»

-

[1] Кемпторн и Фолкс (1971), «
Вероятность, статистика и анализ данных» ,
издательство Университета штата Айова.

[2] LaMotte LR и Volaufová J, (1999),
"Интервалы прогнозирования через интервалы созвучия",
журнал Королевского статистического общества. Серия D (Статистика) , вып. 48, № 3, с. 419-424

[3] Эрнст, MD (2004),
"Методы перестановки: основа для точного вывода", Статистические науки , Vol. 19, № 4, 676–685

Glen_b - Восстановить Монику
источник