P-значение в тесте с двумя хвостами с асимметричным нулевым распределением

18

Моя ситуация такова: я хочу с помощью исследования Монте-Карло сравнить значения двух разных тестов для статистической значимости оцениваемого параметра (ноль - «нет эффекта - параметр равен нулю», а подразумеваемая альтернатива - « параметр не ноль "). Тест A является стандартным «независимым t-тестом на равенство средних для двух выборок» с равными отклонениями под нулем. п

Тест Б я построил сам. Здесь используемое нулевое распределение является асимметричным универсальным дискретным распределением. Но я нашел следующий комментарий в Rohatgi & Saleh (2001, 2nd ed, p. 462)

«Если распределение не симметрично, значение недостаточно хорошо определено в двустороннем случае, хотя многие авторы рекомендуют удвоить одностороннее значение»пп .

Авторы не обсуждают это далее и не комментируют «предложение многих авторов» о удвоении одностороннего значения. (Это создает вопрос «удвоить значение с какой стороны? И почему эта сторона, а не другая?)пп

Я не смог найти других комментариев, мнений или результатов по этому вопросу. Я понимаю, что с асимметричным распределением, хотя мы можем рассматривать интервал, симметричный вокруг нулевой гипотезы относительно значения параметра, у нас не будет второй обычной симметрии - распределения вероятности по массе. Но я не понимаю, почему это делает значение «не очень хорошо определенным». Лично, используя интервал, симметричный вокруг нулевой гипотезы для значений оценки, я не вижу определяющегопПроблема в том, что «вероятность того, что нулевое распределение будет давать значения, равные границам или вне этого интервала, равна XX». Тот факт, что масса вероятности на одной стороне будет отличаться от массы вероятности на другой стороне, похоже, не вызывает проблем, по крайней мере, для моих целей. Но скорее всего Рохатги и Салех знают то, чего не знаю я.

Так что это мой вопрос: в каком смысле значение (или может быть) «нечетко определено» в случае двустороннего теста, когда нулевое распределение не симметрично?п

Возможно, важное замечание: я подхожу к этому вопросу в духе Фишера, я не пытаюсь получить строгое правило принятия решения в смысле Неймана-Пирсона. Я оставляю за пользователем теста возможность использовать информацию о значении вместе с любой другой информацией, чтобы сделать выводы.п

Алекос Пападопулос
источник
4
В дополнение к подходам на основе вероятности («Fisherian») и LR (NP), другой метод рассматривает способы получения коротких доверительных интервалов и использует их для проверки гипотез. Это делается в духе теории принятия решений (и с использованием ее методов), где длина включена в функцию потерь. Для унимодальных симметричных распределений тестовой статистики, очевидно, самые короткие возможные интервалы получаются с использованием симметричных интервалов (по существу, «удваивая значение p» односторонних тестов). Интервалы наименьшей длины зависят от параметризации: поэтому они не могут быть фишеровыми.
whuber
Мне было интересно, будут ли ответы, опубликованные здесь, также применимы к бета-версиям. Благодарю.
JLT
@JLT: да, почему нет?
Scortchi - Восстановить Монику

Ответы:

12

Если мы посмотрим на точный тест 2х2 и примем его за наш подход, то, что является «более экстремальным», может быть напрямую измерено «меньшей вероятностью». (Agresti [1] упоминает ряд подходов различных авторов к вычислению двуххвостых p-значений только для этого случая точного критерия Фишера 2x2, из которых этот подход является одним из трех, специально обсуждаемых как «наиболее популярные».)

Для непрерывного (унимодального) распределения вы просто находите точку в другом хвосте с той же плотностью, что и значение выборки, и все с равной или меньшей вероятностью в другом хвосте учитывается при вычислении значения p.

Для дискретных распределений, которые монотонно не увеличиваются в хвостах, это примерно так же просто. Вы просто подсчитываете все с равной или меньшей вероятностью, чем ваша выборка, которая с учетом допущений, которые я добавил (чтобы термин «хвосты» соответствовал идее), дает возможность решить эту проблему.

Если вы знакомы с интервалами HPD (и опять-таки, мы имеем дело с унимодальностью), это в основном похоже на то, что вы берете все за пределы открытого интервала HPD, ограниченного одним хвостом, по вашей выборочной статистике.

введите описание изображения здесь

[Повторюсь - это вероятность при нулевом значении, которое мы здесь приравниваем.]

Так что, по крайней мере, в одномодальном случае кажется достаточно простым подражать точному критерию Фишера и все же говорить о двух хвостах.

Тем не менее, вы, возможно, не собирались ссылаться на дух точного теста Фишера именно таким образом.

Поэтому, размышляя над этой идеей о том, что делает что-то «таким же или более экстремальным» на мгновение, давайте немного поближе к концу вещей Неймана-Пирсона. Это может помочь (до того, как вы начнете тестировать!) Определить область отклонения для теста, проводимого на некотором общем уровне (я не имею в виду, что вам нужно буквально вычислять один, просто как вы его вычислите). Как только вы это сделаете, способ вычисления двух значений p для вашего случая должен стать очевидным.α

Этот подход может быть ценным, даже если кто-то проводит тестирование вне обычного теста отношения правдоподобия. Для некоторых приложений может быть сложно выяснить, как вычислить p-значения в асимметричных тестах перестановок ... но это часто становится существенно проще, если вы сначала подумаете о правиле отклонения.

С помощью F-тестов дисперсии я заметил, что «p-значение с двойным хвостом» может дать совершенно разные p-значения для того, что я считаю правильным подходом. [Не должно иметь значения, какую группу вы называете «выборка 1», или вы положили большую или меньшую дисперсию в числитель.]

[1]: Agresti, A. (1992)
. Обзор точных выводов для таблиц непредвиденных обстоятельств.
Statistical Science , Vol. 7 , № 1. (февраль), стр. 131-153.

Glen_b - Восстановить Монику
источник
1
ctd ... Если мы делаем тест отношения правдоподобия, отношение правдоподобия всегда однофакторное, но если мы строим эквивалентный двухсторонний тест, основанный на некоторой статистике, то мы все еще ищем меньшие отношения вероятности, чтобы определить местонахождение «более экстремального»
Glen_b
2
Удвоение одностороннего p-значения может быть защищено как поправка Бонферрони для проведения двух односторонних испытаний. В конце концов, после двухстороннего теста мы, как правило, очень склонны расценивать любое сомнение в истинности нуля как предпочтение другой гипотезе, направление которой определяется данными.
Scortchi - Восстановить Монику
1
@ Алекос, это достаточно просто, чтобы оправдать симметричный выбор! Мне трудно понять, как вы прочитали бы то, что я написал, поскольку предположить, что симметричный выбор никоим образом не является действительным (этот выбор покрыт обсуждением, которое я дал о правиле отклонения - вы можете легко построить симметричный правило отклонения). Первая часть моего ответа была ответом на часть вопроса о Фишере. Если вы спросите о Фишере, не должен ли я обсудить, что, по-видимому, может сделать Фишер, исходя из того, что он сделал в подобных обстоятельствах? Вы, похоже, истолковали мой ответ как высказывание большего, чем оно есть.
Glen_b
1
@Alecos В частности, я не защищаю подходы Фишера или Неймана Пирсона (говорим ли мы о тестах отношения правдоподобия или просто о гипотезах в более общем смысле), и при этом вы не должны рассматривать меня как попытку предположить, что все, что я пропустил, могло быть неправильным , Я просто обсуждаю ряд вещей, которые вы, казалось, поднимали в своем вопросе.
Glen_b
2
В конечном итоге, да. Отличительная особенность подхода Фишера заключается в том, что он дает очень разумный способ достижения значения р, даже не имея альтернативы. Но если у вас есть конкретные альтернативы, представляющие интерес, вы можете более или менее точно нацелить свою область отклонения на эти альтернативы, объявив части пространства выборки, где альтернативы будут склонны помещать ваши выборки в качестве области отклонения. Тестовая статистика, T, является удобным способом достижения этого, по сути, связывая одно число с каждой точкой в ​​ней (давая нам «более экстремальный» показатель, измеряемый T). ... ctd
Восстановить Монику
9

STSTзнак равно|S|

Tзнак равномин(PrЧАС0(S<s),PrЧАС0(S>s))S2T

SSTзнак равноеS(S)Икс1,66-1,66

пзнак равноPr(Икс>1,66)+Pr(Икс<-1,66)знак равно0.048457+0.048457знак равно0,09691.
Yе1,66знак равно5,25930.025732знак равное-3,66
пзнак равноPr(Y>5,2593)+Pr(Y<0.025732)знак равно0.048457+0.00012611знак равно0,04858.

введите описание изображения здесь

пзнак равно2Tзнак равно2мин(Pr(Икс<1,66),Pr(Икс>1,66))знак равно2мин(Pr(Y<5,2593),Pr(Y>5,2593))знак равно2мин(0.048457,0.951543)знак равно2×0.048457знак равно0,09691.

Продолжение этого ответа, обсуждающее некоторые принципы построения тестов, в которых явно указывается альтернативная гипотеза, можно найти здесь .

S

пLзнак равноPrЧАС0(Ss)
пUзнак равноPrЧАС0(Ss)

для нижних и верхних односторонних значений p двустороннее значение p определяется как

Pr(TT)знак равно{пL+PrЧАС0(пUпL)когда пLпUпU+PrЧАС0(пLпU)в противном случае

2T

Scortchi - Восстановить Монику
источник
1
Ух ты. Это очень хороший момент +1. Каков ваш совет тогда? Кроме того, могу ли я интерпретировать это расхождение как соответствующее различным (в данном случае неявному) выбору статистики теста?
говорит амеба: восстанови Монику
1
@amoeba: не опечатка! И когда вы наблюдаете 1,66, вы берете минимум 0,952 и 0,048. Если бы вы действительно наблюдали -3,66, это было бы минимумом 0,0001 и 0,9999.
Scortchi - Восстановить Монику
1
@ Scortchi Я только что принял ответ Glen_b, потому что он был более «полезным» для меня в узком смысле. Но ваша помогла мне избежать ловушки, когда я думал, что «это все, что нужно», что является отличным страховым полисом для будущих рисков. Еще раз спасибо.
Алекос Пападопулос
1
@ Scortchi Я должен согласиться; мой ответ принял довольно упрощенный и односторонний взгляд, и я должен уточнить, расширить и обосновать ответ. Я, вероятно, сделаю это в несколько этапов.
Glen_b
1
@Glen_b: Спасибо, я с нетерпением жду этого. Я также хочу расширить мои, чтобы показать, как тесты баллов и обобщенные тесты отношения правдоподобия дают разные ответы (в целом); И теория несмещенных тестов, безусловно, стоит упомянуть в этом контексте (но я едва помню ее).
Scortchi - Восстановить Монику