Почему t-распределение становится более нормальным с увеличением размера выборки?

19

Согласно Википедии, я понимаю, что t-распределение - это выборочное распределение t-значения, когда выборки представляют собой наблюдения из нормально распределенной популяции. Тем не менее, я не понимаю, почему это приводит к тому, что форма t-распределения меняется с жирнохвостого на почти совершенно нормальный.

Я понимаю, что если вы делаете выборку из нормального распределения, то если вы берете большую выборку, она будет напоминать это распределение, но я не понимаю, почему он начинается с формы с толстым хвостом, которую он делает.

user1205901 - Восстановить Монику
источник

Ответы:

22

Я постараюсь дать интуитивное объяснение.

Т-статистика * имеет числитель и знаменатель. Например, статистика в одном образце t-критерия

x¯μ0s/n

* (их несколько, но, надеюсь, эта дискуссия должна быть достаточно общей, чтобы охватить те, о которых вы спрашиваете)

Согласно допущениям, числитель имеет нормальное распределение со средним значением 0 и некоторым неизвестным стандартным отклонением.

При том же наборе допущений знаменатель является оценкой стандартного отклонения распределения числителя (стандартная ошибка статистики в числителе). Он не зависит от числителя. Его квадрат является случайной величиной хи-квадрат, деленной на ее степени свободы (которая также является df от t-распределения), умноженную на числитель .σnumerator

Когда степени свободы являются маленькими, знаменатель имеет тенденцию быть довольно правильным. У него высокий шанс быть меньше среднего и относительно хороший шанс быть совсем маленьким. В то же время, он также имеет некоторый шанс быть намного, намного больше, чем его среднее значение.

В предположении нормальности числитель и знаменатель независимы. Таким образом, если мы случайным образом извлекаем из распределения этой t-статистики, мы получим нормальное случайное число, разделенное на второе случайно * выбранное значение из распределения с перекосом вправо, которое в среднем составляет около 1.

* без учета нормального срока

Поскольку он находится в знаменателе, малые значения в распределении знаменателя дают очень большие значения t. Отклонение вправо в знаменателе делает статистику тяжеловесной. Правый хвост распределения, когда на знаменателе делает распределение t более резким, чем нормаль с тем же стандартным отклонением, что и t .

Однако по мере того, как степени свободы становятся большими, распределение становится намного более нормальным и намного более «узким» вокруг своего среднего значения.

введите описание изображения здесь

Таким образом, эффект деления на знаменатель на форму распределения числителя уменьшается с увеличением степеней свободы.

В конце концов - как может предположить нам теорема Слуцкого, - эффект знаменателя становится более похожим на деление на константу, а распределение t-статистики очень близко к норме.


Рассматривается с точки зрения взаимности знаменателя

В комментариях Уабер высказал предположение, что было бы более поучительно взглянуть на взаимность знаменателя. То есть мы могли бы написать нашу t-статистику в виде числителя (нормальное) раз обратного знаменателя (наклон вправо).

Например, наша статистика за одну выборку t будет такой:

n(x¯μ0)1/s

Теперь рассмотрим стандартное отклонение популяции исходного , σ x . Мы можем умножить и разделить на это, вот так:Xiσx

n(x¯μ0)/σxσx/s

Первый член стандартно нормален. Затем второе слагаемое (квадратный корень из масштабированной случайной величины с обратным хи-квадратом) масштабирует этот стандартный нормаль значениями, которые больше или меньше 1, «распространяя его».

В предположении нормальности два слагаемых в произведении являются независимыми. Поэтому, если мы случайным образом получим из распределения этой t-статистики, мы получим нормальное случайное число (первое слагаемое в произведении), умноженное на второе случайно выбранное значение (без учета нормального слагаемого) из правостороннего распределения, которое ' как правило, около 1.

Когда df велико, значение имеет тенденцию быть очень близким к 1, но когда df мало, оно довольно искажено и разброс большой, с большим правым хвостом этого коэффициента масштабирования, делающим хвост довольно толстым:

введите описание изображения здесь

Glen_b - Восстановить Монику
источник
Благодарность! Это многое прояснило, но я все еще был немного неуверен в том, что «его квадрат является случайной величиной хи-квадрат, деленной на ее степени свободы (которая также является df от t-распределения), умноженного на [стандартное отклонение] числителя». ». Вы упомянули об этом просто потому, что это было полезно знать, или это имеет прямое отношение к ответу на мой вопрос? Я понимаю, что именно распределение знаменателя, а не распределение квадрата знаменателя, изображено на вашей фигуре.
user1205901 - Восстановить Монику
2
Распределение статистики было бы более тяжелым, чем обычно, даже если бы оно не было конкретно квадратным корнем хи-квадрата на его df; в этом смысле это не будет напрямую изменять ответ, чтобы его опустить. Но, по крайней мере, это служит объяснением того, откуда взялись распределения шкаличи на диаграмме.
Glen_b
3
Я думаю, что было бы немного более полезно провести этот анализ на основе обратной величины стандартного отклонения выборки. Это, в сочетании с аргументом о том, что образец SD не зависит от среднего значения выборки (ключевая идея, которая выиграет от чуть большего акцента и объяснения, ИМХО), поможет людям увидеть, что деление выборочного среднего значения на образец SD должно распространять то, что в противном случае было бы нормальным распределением. (Это, конечно, и было
смыслом
1
@whuber Я добавил раздел, обсуждающий его с точки зрения взаимности, но также сохранил первоначальное обсуждение (мне кажется, что оно более прямое, но я ценю, что многие люди могут извлечь из этого больше пользы с точки зрения взаимности) , Я также добавлю немного о независимости
Glen_b
1
s/nσ/ns/σσ/sσ
8

@Glen_b дал вам интуицию о том, почему статистика t выглядит более нормальной по мере увеличения размера выборки. Теперь я дам вам немного более подробное объяснение случая, когда вы уже получили распространение статистики.

n1n

(1+x2n1)n/2n1B(n12,12).

Можно показать, что

1n1B(n12,12)12π,

и

(1+x2n1)n/2exp(x2/2),

n

Крюгер
источник
2
1/n(1+(x/n)2)1tn толстые хвосты. Возможность такого тонкого поведения делает аргументы, основанные на пределах PDF-файлов, менее чем удовлетворительными. Кроме того, не вопрос действительно спросить о небольшойстепени свободы? Он хочет знать, почему последовательность «начинается с фигуры с толстыми хвостами».
whuber
2
nN
2

Я просто хотел поделиться чем-то, что помогло моей интуиции как новичку (хотя это менее строгое, чем другие ответы).

Z,Z1,,,,,ZN

ZZ12+,,,+ZN2N

имеет Т-распределение с N степени свободы.

В качестве N становится действительно большим, используя закон больших чисел, мы можем видеть, что знаменатель идет к 1, Так что вы просто остались сZ который является нормальным нормальным, поэтому распределение t выглядит нормально, как N становится большим.

Для уточнения ... обратите внимание, что Е[Z2]знак равно1который говорит, что ожидаемое значение Чи в квадрате RV равно единице. Доля в квадратном корне - это просто среднее значение выборкиN н.о.р. Zя2RVs. Образец означает какN получает супер большой будет равен ожидаемому значению только одного из Zя2это что один.

Таким образом N становится действительно большим, вы просто остались с Z1знак равноZ

HJ_beginner
источник