Я смотрел на эту записную книжку , и я озадачен этим утверждением:
Когда мы говорим о нормальности, мы имеем в виду, что данные должны выглядеть как нормальное распределение. Это важно, потому что несколько статистических тестов полагаются на это (например, t-статистика).
Я не понимаю, зачем Т-статистике нужны данные для нормального распределения.
Действительно, Википедия говорит то же самое:
T-распределение Стьюдента (или просто t-распределение) - это любой член семейства непрерывных распределений вероятностей, возникающих при оценке среднего значения нормально распределенной совокупности
Однако я не понимаю, почему это предположение необходимо.
Ничто из его формулы не указывает на то, что данные должны соответствовать нормальному распределению:
Я немного посмотрел на его определение, но я не понимаю, почему условие необходимо.
Я думаю, что может быть некоторая путаница между статистикой и ее формулой, а не распределением и формулой. Вы можете применить формулу t-статистики к любому набору данных и получить «t-статистику», но эта статистика не будет распределяться в соответствии с распределением student-t, если данные не получены из нормального распределения (или, по крайней мере, не будут гарантированно будет; я предполагаю, что ненормальные распределения не приведут к распределению t-студента при применении формулы t-статистики, но я не уверен в этом). Причина этого заключается просто в том, что распределение t-статистики рассчитывается на основе распределения данных, которые ее сгенерировали, поэтому, если у вас другое базовое распределение, то вы не гарантируете, что такое же распределение будет для производной статистики.
источник