Моя ситуация такова: я хочу с помощью исследования Монте-Карло сравнить значения двух разных тестов для статистической значимости оцениваемого параметра (ноль - «нет эффекта - параметр равен нулю», а подразумеваемая альтернатива - « параметр не ноль "). Тест A является стандартным «независимым t-тестом на равенство средних для двух выборок» с равными отклонениями под нулем.
Тест Б я построил сам. Здесь используемое нулевое распределение является асимметричным универсальным дискретным распределением. Но я нашел следующий комментарий в Rohatgi & Saleh (2001, 2nd ed, p. 462)
«Если распределение не симметрично, значение недостаточно хорошо определено в двустороннем случае, хотя многие авторы рекомендуют удвоить одностороннее значение» .
Авторы не обсуждают это далее и не комментируют «предложение многих авторов» о удвоении одностороннего значения. (Это создает вопрос «удвоить значение с какой стороны? И почему эта сторона, а не другая?)
Я не смог найти других комментариев, мнений или результатов по этому вопросу. Я понимаю, что с асимметричным распределением, хотя мы можем рассматривать интервал, симметричный вокруг нулевой гипотезы относительно значения параметра, у нас не будет второй обычной симметрии - распределения вероятности по массе. Но я не понимаю, почему это делает значение «не очень хорошо определенным». Лично, используя интервал, симметричный вокруг нулевой гипотезы для значений оценки, я не вижу определяющегоПроблема в том, что «вероятность того, что нулевое распределение будет давать значения, равные границам или вне этого интервала, равна XX». Тот факт, что масса вероятности на одной стороне будет отличаться от массы вероятности на другой стороне, похоже, не вызывает проблем, по крайней мере, для моих целей. Но скорее всего Рохатги и Салех знают то, чего не знаю я.
Так что это мой вопрос: в каком смысле значение (или может быть) «нечетко определено» в случае двустороннего теста, когда нулевое распределение не симметрично?
Возможно, важное замечание: я подхожу к этому вопросу в духе Фишера, я не пытаюсь получить строгое правило принятия решения в смысле Неймана-Пирсона. Я оставляю за пользователем теста возможность использовать информацию о значении вместе с любой другой информацией, чтобы сделать выводы.
источник
Ответы:
Если мы посмотрим на точный тест 2х2 и примем его за наш подход, то, что является «более экстремальным», может быть напрямую измерено «меньшей вероятностью». (Agresti [1] упоминает ряд подходов различных авторов к вычислению двуххвостых p-значений только для этого случая точного критерия Фишера 2x2, из которых этот подход является одним из трех, специально обсуждаемых как «наиболее популярные».)
Для непрерывного (унимодального) распределения вы просто находите точку в другом хвосте с той же плотностью, что и значение выборки, и все с равной или меньшей вероятностью в другом хвосте учитывается при вычислении значения p.
Для дискретных распределений, которые монотонно не увеличиваются в хвостах, это примерно так же просто. Вы просто подсчитываете все с равной или меньшей вероятностью, чем ваша выборка, которая с учетом допущений, которые я добавил (чтобы термин «хвосты» соответствовал идее), дает возможность решить эту проблему.
Если вы знакомы с интервалами HPD (и опять-таки, мы имеем дело с унимодальностью), это в основном похоже на то, что вы берете все за пределы открытого интервала HPD, ограниченного одним хвостом, по вашей выборочной статистике.
[Повторюсь - это вероятность при нулевом значении, которое мы здесь приравниваем.]
Так что, по крайней мере, в одномодальном случае кажется достаточно простым подражать точному критерию Фишера и все же говорить о двух хвостах.
Тем не менее, вы, возможно, не собирались ссылаться на дух точного теста Фишера именно таким образом.
Поэтому, размышляя над этой идеей о том, что делает что-то «таким же или более экстремальным» на мгновение, давайте немного поближе к концу вещей Неймана-Пирсона. Это может помочь (до того, как вы начнете тестировать!) Определить область отклонения для теста, проводимого на некотором общем уровне (я не имею в виду, что вам нужно буквально вычислять один, просто как вы его вычислите). Как только вы это сделаете, способ вычисления двух значений p для вашего случая должен стать очевидным.α
Этот подход может быть ценным, даже если кто-то проводит тестирование вне обычного теста отношения правдоподобия. Для некоторых приложений может быть сложно выяснить, как вычислить p-значения в асимметричных тестах перестановок ... но это часто становится существенно проще, если вы сначала подумаете о правиле отклонения.
С помощью F-тестов дисперсии я заметил, что «p-значение с двойным хвостом» может дать совершенно разные p-значения для того, что я считаю правильным подходом. [Не должно иметь значения, какую группу вы называете «выборка 1», или вы положили большую или меньшую дисперсию в числитель.]
[1]: Agresti, A. (1992)
. Обзор точных выводов для таблиц непредвиденных обстоятельств.
Statistical Science , Vol. 7 , № 1. (февраль), стр. 131-153.
источник
Продолжение этого ответа, обсуждающее некоторые принципы построения тестов, в которых явно указывается альтернативная гипотеза, можно найти здесь .
для нижних и верхних односторонних значений p двустороннее значение p определяется как
источник