Для t-тестов, согласно большинству текстов, есть предположение, что данные о населении обычно распределяются. Я не понимаю, почему это так. Разве t-критерий не требует только того, чтобы распределение выборки средних значений выборки было нормально распределено, а не совокупность?
Если это так, что критерий Стьюдента в конечном итоге требует только нормальности в распределении выборки, популяция может выглядеть как любое распределение, верно? Пока есть разумный размер выборки. Разве это не то, что утверждает центральная предельная теорема?
(Я имею в виду здесь t-тесты с одним или независимыми образцами)
Ответы:
Т-статистика состоит из соотношения двух величин, обе случайные величины. Он не просто состоит из числителя.
Чтобы t-статистика имела t-распределение, вам нужно не просто, чтобы среднее значение выборки имело нормальное распределение. Вам также необходимо:
чтобы в знаменателе было таким, чтобы *s 2 / σ 2 ∼ χ 2 ds s2/ σ2∼ χ2d
числитель и знаменатель должны быть независимыми.
* (значение зависит от того, какой тест - в одном образце мы имеем )t d = n - 1d T d= n - 1
Для того чтобы эти три вещи действительно были правдой, вам необходимо, чтобы исходные данные были нормально распределены.
Давайте возьмем iid как дано на мгновение. Для удержания CLT население должно соответствовать условиям ... - население должно иметь распределение, к которому применяется CLT. Так что нет, поскольку существуют распределения населения, на которые не распространяется CLT.
Нет, CLT на самом деле не говорит ни слова о «разумном размере выборки».
Это фактически ничего не говорит о том, что происходит при любом конечном размере выборки.
Я думаю о конкретном распределении прямо сейчас. Это тот, к которому CLT, безусловно, относится. Но при распределение среднего значения выборки явно ненормальное. И все же я сомневаюсь, что в любом образце истории человечества когда-либо было столько ценностей. Итак, вне тавтологии - что означает «разумный »? nп = 1015 N
Итак, у вас есть двойные проблемы:
A. Эффект, который люди обычно приписывают CLT - все более близкий подход к нормальному распределению средних значений выборки при малых / средних размерах выборки - фактически не указывается в CLT **.
B. «Что-то не очень нормальное в числителе» недостаточно для получения статистики, имеющей t-распределение
** (Что-то вроде теоремы Берри-Эссеена больше напоминает то, что люди видят, когда смотрят на эффект увеличения размера выборки на распределение средств выборки.)
CLT и теорема Слуцкого вместе дают вам (до тех пор, пока все их предположения верны), что при распределение t-статистики приближается к стандартной норме. В нем не сказано, может ли какого-либо данного конечного быть достаточно для какой-либо цели.nn → ∞ N
источник