Предположим t-критерий с одной выборкой, где нулевая гипотеза . Статистика тогда с использованием стандартного отклонения выборки . При оценке сравниваются наблюдения со средним значением выборки : т = ¯ х - μ 0 ss¯x
.
Однако, если мы предположим, что заданный является истинным, можно также оценить стандартное отклонение используя вместо среднего значения образца :s ∗ μ 0 ¯ x
.
Для меня этот подход выглядит более естественным, поскольку мы, следовательно, используем нулевую гипотезу также для оценки SD. Кто-нибудь знает, используется ли полученная статистика в тесте, или знает, почему нет?
Ответы:
В этом посте была проблема с оригинальной симуляцией, которая, надеюсь, теперь исправлена.
В то время как оценка стандартного отклонения выборки имеет тенденцию расти вместе с числителем как среднее значение отклоняется от , это , оказывается , не все , что большое влияние на мощность на «типичные» уровнях значимости, потому что в среднем и крупные образцах, все еще имеет тенденцию быть достаточно большим, чтобы отклонить. В меньших выборках это может иметь некоторый эффект, и на очень малых уровнях значимости это может стать очень важным, потому что это установит верхнюю границу для мощности, которая будет меньше 1.s ∗ / √μ0 s∗/n−−√
Вторая проблема, возможно, более важная для «общих» уровней значимости, заключается в том, что числитель и знаменатель тестовой статистики больше не являются независимыми при нулевом значении (квадрат коррелирует с оценкой дисперсии) ,x¯−μ
Это означает, что у теста больше нет t-распределения ниже нуля. Это не фатальный недостаток, но это означает, что вы не можете просто использовать таблицы и получить желаемый уровень значимости (как мы увидим через минуту). То есть тест становится консервативным, и это влияет на мощность.
По мере того как n становится большим, эта зависимость становится менее важной (не в последнюю очередь потому, что вы можете вызвать CLT для числителя и использовать теорему Слуцкого, чтобы сказать, что существует асимптотическое нормальное распределение для модифицированной статистики).
Вот кривая мощности для обычных двух выборок t (пурпурная кривая, тест с двумя хвостами) и для теста с использованием нулевого значения в расчете (синие точки, полученные с помощью моделирования и с использованием t-таблиц), как среднее значение популяции отходит от предполагаемого значения для : s n = 10μ0 s n=10
Вы можете видеть, что кривая мощности ниже (она становится намного хуже при меньших размерах выборки), но большая часть этого, кажется, происходит потому, что зависимость между числителем и знаменателем снизила уровень значимости. Если вы правильно отрегулируете критические значения, между ними будет мало даже при n = 10.
И вот снова кривая мощности, но теперь дляn=30
Это говорит о том, что при немалых размерах выборок между ними не так уж и много, если вам не нужно использовать очень маленькие уровни значимости.
источник
Когда нулевая гипотеза верна, ваша статистика должна быть похожа на обычную статистику t-критерия (хотя при вычислении стандартного отклонения вам, вероятно, следует делить на вместо потому что вы не тратите некоторую степень свободы, чтобы оценить среднее значение ). Я ожидал бы, что у него будут подобные свойства (правильный размер, подобная сила), когда нулевая гипотеза верна (среднее значение по населению - .n - 1 μ 0n n−1 μ0
Но теперь рассмотрим, что происходит, когда нулевая гипотеза не соответствует действительности. Это означает, что при вычислении стандартной ошибки вы вычитаете значение, которое не является истинным средним значением, или оценку истинного среднего значения, фактически вы можете вычитать значение, которое даже не лежит в диапазоне значений x. Это увеличит ваше стандартное отклонение ( гарантированно минимизирует стандартное отклонение), так как отходит от истинного среднего значения. Таким образом, когда значение null равно false, вы будете увеличивать как числитель, так и знаменатель в статистике, что уменьшит ваши шансы отклонить нулевую гипотезу (и она не будет распределена как t-распределение). μ0x¯ μ0
Поэтому, когда значение null равно true, в любом случае, вероятно, будет работать, но когда значение null равно false, использование даст лучшую мощность (и, возможно, также и другие свойства), так что это предпочтительнее.x¯
источник