Я постараюсь дать интуитивное объяснение.
Т-статистика * имеет числитель и знаменатель. Например, статистика в одном образце t-критерия
x¯−μ0s/n−−√
* (их несколько, но, надеюсь, эта дискуссия должна быть достаточно общей, чтобы охватить те, о которых вы спрашиваете)
Согласно допущениям, числитель имеет нормальное распределение со средним значением 0 и некоторым неизвестным стандартным отклонением.
При том же наборе допущений знаменатель является оценкой стандартного отклонения распределения числителя (стандартная ошибка статистики в числителе). Он не зависит от числителя. Его квадрат является случайной величиной хи-квадрат, деленной на ее степени свободы (которая также является df от t-распределения), умноженную на числитель .σnumerator
Когда степени свободы являются маленькими, знаменатель имеет тенденцию быть довольно правильным. У него высокий шанс быть меньше среднего и относительно хороший шанс быть совсем маленьким. В то же время, он также имеет некоторый шанс быть намного, намного больше, чем его среднее значение.
В предположении нормальности числитель и знаменатель независимы. Таким образом, если мы случайным образом извлекаем из распределения этой t-статистики, мы получим нормальное случайное число, разделенное на второе случайно * выбранное значение из распределения с перекосом вправо, которое в среднем составляет около 1.
* без учета нормального срока
Поскольку он находится в знаменателе, малые значения в распределении знаменателя дают очень большие значения t. Отклонение вправо в знаменателе делает статистику тяжеловесной. Правый хвост распределения, когда на знаменателе делает распределение t более резким, чем нормаль с тем же стандартным отклонением, что и t .
Однако по мере того, как степени свободы становятся большими, распределение становится намного более нормальным и намного более «узким» вокруг своего среднего значения.
Таким образом, эффект деления на знаменатель на форму распределения числителя уменьшается с увеличением степеней свободы.
В конце концов - как может предположить нам теорема Слуцкого, - эффект знаменателя становится более похожим на деление на константу, а распределение t-статистики очень близко к норме.
Рассматривается с точки зрения взаимности знаменателя
В комментариях Уабер высказал предположение, что было бы более поучительно взглянуть на взаимность знаменателя. То есть мы могли бы написать нашу t-статистику в виде числителя (нормальное) раз обратного знаменателя (наклон вправо).
Например, наша статистика за одну выборку t будет такой:
n−−√(x¯−μ0)⋅1/s
Теперь рассмотрим стандартное отклонение популяции исходного , σ x . Мы можем умножить и разделить на это, вот так:Xiσx
n−−√(x¯−μ0)/σx⋅σx/s
Первый член стандартно нормален. Затем второе слагаемое (квадратный корень из масштабированной случайной величины с обратным хи-квадратом) масштабирует этот стандартный нормаль значениями, которые больше или меньше 1, «распространяя его».
В предположении нормальности два слагаемых в произведении являются независимыми. Поэтому, если мы случайным образом получим из распределения этой t-статистики, мы получим нормальное случайное число (первое слагаемое в произведении), умноженное на второе случайно выбранное значение (без учета нормального слагаемого) из правостороннего распределения, которое ' как правило, около 1.
Когда df велико, значение имеет тенденцию быть очень близким к 1, но когда df мало, оно довольно искажено и разброс большой, с большим правым хвостом этого коэффициента масштабирования, делающим хвост довольно толстым:
@Glen_b дал вам интуицию о том, почему статистика t выглядит более нормальной по мере увеличения размера выборки. Теперь я дам вам немного более подробное объяснение случая, когда вы уже получили распространение статистики.
Можно показать, что
и
источник
Я просто хотел поделиться чем-то, что помогло моей интуиции как новичку (хотя это менее строгое, чем другие ответы).
имеет Т-распределение сN степени свободы.
В качествеN становится действительно большим, используя закон больших чисел, мы можем видеть, что знаменатель идет к 1 , Так что вы просто остались сZ который является нормальным нормальным, поэтому распределение t выглядит нормально, как N становится большим.
Для уточнения ... обратите внимание, чтоЕ[ Z2] = 1 который говорит, что ожидаемое значение Чи в квадрате RV равно единице. Доля в квадратном корне - это просто среднее значение выборкиN н.о.р. Z2я RVs. Образец означает какN получает супер большой будет равен ожидаемому значению только одного из Z2я это что один.
Таким образомN становится действительно большим, вы просто остались с Z1√= Z
источник