Вопрос о предположении нормальности t-критерия

9

Для t-тестов, согласно большинству текстов, есть предположение, что данные о населении обычно распределяются. Я не понимаю, почему это так. Разве t-критерий не требует только того, чтобы распределение выборки средних значений выборки было нормально распределено, а не совокупность?

Если это так, что критерий Стьюдента в конечном итоге требует только нормальности в распределении выборки, популяция может выглядеть как любое распределение, верно? Пока есть разумный размер выборки. Разве это не то, что утверждает центральная предельная теорема?

(Я имею в виду здесь t-тесты с одним или независимыми образцами)

Питер Нэш
источник
1
Что ж, выборочное среднее в качестве случайной величины может быть нормальным, только если отдельные части также нормальные. Но вы правы: t-критерий асимптотически непараметрический (без нормального распределения), но все же внутригрупповые отклонения (в ситуации с двумя выборками) должны быть одинаковыми и существующими.
Майкл М
Имея сходства внутригрупповых дисперсий, вы имеете в виду предположение об однородности дисперсии? Если да, то t-критерий Уэлча подходит для этого, верно?
Питер Нэш
Да, точно. Если скорректированные степени свободы Уэлча уходят в бесконечность, то и его процедура будет бесплатной (однако цитирование необходимо ...).
Майкл М

Ответы:

9

Для t-тестов, согласно большинству текстов, есть предположение, что данные о населении обычно распределяются. Я не понимаю, почему это так. Разве t-критерий не требует только того, чтобы распределение выборки средних значений выборки было нормально распределено, а не совокупность?

Т-статистика состоит из соотношения двух величин, обе случайные величины. Он не просто состоит из числителя.

Чтобы t-статистика имела t-распределение, вам нужно не просто, чтобы среднее значение выборки имело нормальное распределение. Вам также необходимо:

  • чтобы в знаменателе было таким, чтобы *s 2 / σ 2χ 2 dss2/σ2~χd2

  • числитель и знаменатель должны быть независимыми.

* (значение зависит от того, какой тест - в одном образце мы имеем )t d = n - 1dTdзнак равноN-1

Для того чтобы эти три вещи действительно были правдой, вам необходимо, чтобы исходные данные были нормально распределены.

Если это так, что критерий Стьюдента в конечном итоге требует только нормальности в распределении выборки, популяция может выглядеть как любое распределение, верно?

Давайте возьмем iid как дано на мгновение. Для удержания CLT население должно соответствовать условиям ... - население должно иметь распределение, к которому применяется CLT. Так что нет, поскольку существуют распределения населения, на которые не распространяется CLT.

Пока есть разумный размер выборки. Разве это не то, что утверждает центральная предельная теорема?

Нет, CLT на самом деле не говорит ни слова о «разумном размере выборки».

Это фактически ничего не говорит о том, что происходит при любом конечном размере выборки.

Я думаю о конкретном распределении прямо сейчас. Это тот, к которому CLT, безусловно, относится. Но при распределение среднего значения выборки явно ненормальное. И все же я сомневаюсь, что в любом образце истории человечества когда-либо было столько ценностей. Итак, вне тавтологии - что означает «разумный »? nNзнак равно1015N


Итак, у вас есть двойные проблемы:

A. Эффект, который люди обычно приписывают CLT - все более близкий подход к нормальному распределению средних значений выборки при малых / средних размерах выборки - фактически не указывается в CLT **.

B. «Что-то не очень нормальное в числителе» недостаточно для получения статистики, имеющей t-распределение

** (Что-то вроде теоремы Берри-Эссеена больше напоминает то, что люди видят, когда смотрят на эффект увеличения размера выборки на распределение средств выборки.)


CLT и теорема Слуцкого вместе дают вам (до тех пор, пока все их предположения верны), что при распределение t-статистики приближается к стандартной норме. В нем не сказано, может ли какого-либо данного конечного быть достаточно для какой-либо цели.nNN

Glen_b - Восстановить Монику
источник
1
Для того чтобы эти три вещи (нормальность среднего значения выборки, хи-квадратность дисперсии выборки и независимость двух) были действительно верными, необходимо, чтобы исходные данные были нормально распределены. Вы говорите, что только у Нормального есть эти три свойства? Я не утверждаю, что утверждение является ложным, просто любопытно, если это то, что вы говорите.
Андрей М
2
@AndrewM Конечно, только нормальный имеет все три вместе. Кроме того, первого или третьего достаточно для того, чтобы подразумевать нормаль - третий характеризует нормаль ( Лукач, 1942 ), а для конечного числа независимых случайных величин только нормаль имеет первое ( теорема разложения Крамера ). Вполне возможно, что есть второй способ получить второй, но я не знаю ни одного.
Glen_b
@AndrewM в отношении второго, работа Ахсануллы (1987,1989) может быть актуальной.
Glen_b
1
Икс~AИкс~A
@AndrewM Разница в том, что результат, который вы цитируете, не зависит от независимости, в отличие от результата Крамера. Они оба полезны на их месте.
Glen_b