Почему Т-статистике нужны данные для нормального распределения

11

Я смотрел на эту записную книжку , и я озадачен этим утверждением:

Когда мы говорим о нормальности, мы имеем в виду, что данные должны выглядеть как нормальное распределение. Это важно, потому что несколько статистических тестов полагаются на это (например, t-статистика).

Я не понимаю, зачем Т-статистике нужны данные для нормального распределения.

Действительно, Википедия говорит то же самое:

T-распределение Стьюдента (или просто t-распределение) - это любой член семейства непрерывных распределений вероятностей, возникающих при оценке среднего значения нормально распределенной совокупности

Однако я не понимаю, почему это предположение необходимо.

Ничто из его формулы не указывает на то, что данные должны соответствовать нормальному распределению:

введите описание изображения здесь

Я немного посмотрел на его определение, но я не понимаю, почему условие необходимо.

Октавиан
источник

Ответы:

17

Требуемая информация находится в разделе «Характеристика» на вики-странице . -распределение с степенями свободы может быть определена как распределение случайной величины таким образом, что где представляет собой стандартное нормальное распределение случайная величина и является случайной величиной со степенями свободы . Кроме того, и должны быть независимыми. Таким образом, учитывая любые и которые следуют приведенному выше определению, вы можете получить случайную переменную, которая имеетtνT

T=ZV/ν,
ZVχ2νZVZVt распределение.

Теперь предположим, что распределяется в соответствии с распределением . Пусть имеет среднее значение и дисперсию . Пусть - среднее значение выборки, а - дисперсия выборки. Затем мы посмотрим на формулы:X1,X2,,XnFFμσ2X¯S2

X¯μS/n=X¯μσ/n(n1)S2(n1)σ2.

Если обозначает нормальное распределение, то и, следовательно, . Кроме того, по теореме Кохрана . Наконец, с помощью применения теоремы Баса , и независимы. Это означает, что полученная статистика имеет распределение с степенями свободы.ˉ XN ( μ , σ 2 / n ) ˉ X - μFX¯N(μ,σ2/n)(n-1)S2X¯μσ/nN(0,1) ˉ X S2tn-1(n1)S2σ2χn12X¯S2tn1

Если исходное распределение данных не было нормальным, то точное распределение числителя и знаменателя не будет стандартным нормальным и , соответственно, и, таким образом, полученная статистика не будет иметь распределения.х 2 тFχ2t

Greenparker
источник
3
Мне всегда было довольно интересно, сколько математических технологий вкладывают в эти основополагающие результаты математической статистики.
Мэтью Друри
3
Хороший пост. Однако нам не нужно вызывать эти большие теоремы, чтобы доказать независимость между и , а также распределение . Смотрите первый ответ этого поста. Sχ2X¯Sχ2
Zhanxiong
2

Я думаю, что может быть некоторая путаница между статистикой и ее формулой, а не распределением и формулой. Вы можете применить формулу t-статистики к любому набору данных и получить «t-статистику», но эта статистика не будет распределяться в соответствии с распределением student-t, если данные не получены из нормального распределения (или, по крайней мере, не будут гарантированно будет; я предполагаю, что ненормальные распределения не приведут к распределению t-студента при применении формулы t-статистики, но я не уверен в этом). Причина этого заключается просто в том, что распределение t-статистики рассчитывается на основе распределения данных, которые ее сгенерировали, поэтому, если у вас другое базовое распределение, то вы не гарантируете, что такое же распределение будет для производной статистики.

Acccumulation
источник