Когда я читаю книгу Вассермана «Вся статистика», я замечаю тонкую тонкость в определении p-значений, которую я не могу понять. Неформально Вассерманн определяет значение p как
[..] вероятность (ниже ) наблюдения значения тестовой статистики такая же или более экстремальная, чем на самом деле наблюдалось.
Акцент добавлен. То же самое более формально (теорема 10.12):
Предположим, что размер теста имеет вид
отклонить тогда и только тогда, когда .
Потом,
где - наблюдаемое значение . Если то
Кроме того, Вассерманн определяет p-значение теста Пирсона (и других тестов аналогично) как:
Часть, которую я хотел бы попросить прояснить, - это знак «больше-равно» ( ) в первом определении и знак «больше» ( ) во втором определении. Почему бы нам не написать , который бы соответствовал первой цитате « такой же как или более экстремальный?»
Это явное удобство, так что мы вычисляем значение p как ? Я заметил, что R также использует определение со знаком , например, в .chisq.test
Ответы:
«Как или более экстремальный» это правильно.
Формально, тогда, если распределение таково, что вероятность получения самой тестовой статистики положительна, эта вероятность (и что-либо столь же экстремальное, например, соответствующее значение в другом хвосте) должна быть включена в значение p.
Конечно, при непрерывной статистике эта вероятность точного равенства равна 0. Не имеет значения, если мы говорим или .> ≥
источник
Первая точка состоит в том, что пространство гипотез топологически замкнуто во всем пространстве параметров. Без учета случайности это может быть полезным соглашением, если у вас есть какое-то утверждение о сходящейся последовательности параметров, принадлежащих гипотезе, потому что тогда вы будете знать, что предел внезапно не принадлежит альтернативе.≥
Теперь, учитывая распределения вероятностей, они (обычно) непрерывны справа. Это означает, что отображение замкнутого пространства гипотез в интервал снова закрыто. Вот почему доверительные интервалы также закрыты по соглашению.[0,1]
Это усиливает математику. Представьте себе, вы бы построили доверительный интервал для параметра местоположения асимметричного распределения вероятностей. Там вам придется обменять длину до верхнего хвоста на длину до нижнего. Вероятность в обоих хвостах должна составлять до . Чтобы CI был как можно более информативным, вам придется сократить длину CI так, чтобы вероятность его охвата по-прежнему составляла . Это закрытый набор. Там вы можете найти оптимальное решение с помощью некоторого итерационного алгоритма, например теоремы Банаха о неподвижной точке. Если бы это был открытый набор, вы не можете сделать это.α ≥1−α
источник