Вы, вероятно, думаете о двух образцах t теста, потому что это часто первое место, где появляется t распределение. Но на самом деле все t тесты означают, что эталонное распределение для тестовой статистики является t распределением. Если Z∼N(0,1) и S2∼χ2d причем Z и S2 независимы, то
ZS2/d−−−−√∼td
по определению. Я пишу это, чтобы подчеркнуть, чтораспределение
t- это просто имя, которое было дано распределению этого отношения, потому что оно много подходит, и что-нибудь в этой форме будет иметьраспределение
t. Для t-критерия для двух выборок это соотношение появляется потому, что при нулевом значении разность средних представляет собой гауссиану с нулевым средним, а оценку дисперсии для независимых гауссианов представляет собой независимое значение
χ2(независимость можно показать с помощью
теоремы Басу который использует тот факт, что стандартная оценка дисперсии в гауссовой выборке является вспомогательной по отношению к среднему значению совокупности, в то время как среднее значение по выборке является полным и достаточным для этой же величины).
С линейной регрессией мы в основном получаем то же самое. В векторной . Пусть S 2 j = ( X T X ) - 1 j j и предположим, что предикторы X неслучайны. Если бы мы знали сг 2 мы будем иметь
& beta ; J - 0β^∼N(β,σ2(XTX)−1)S2j=(XTX)−1jjXσ2
при нулевойH0:βJ=0поэтому мы бысамом деле иметь тест Z. Но когда мы оцениваемσ2мыконечном итоге сχ2случайной величинойчто при наших предположениях нормальности, оказывается независимыми от нашей статистики беты Jа затем мы получаемтраспределение.
β^j−0σSj∼N(0,1)
H0:βj=0σ2χ2β^jt
Вот подробности этого: предположим, что . Полагая H = X ( X T X ) - 1 X T матрица шляпы мы имеем
| | е | | 2 = | | ( I - Н ) у | | 2 = у Т ( I - Н ) у . H идемпотент, поэтому мы имеем действительно хороший результат,
y∼N(Xβ,σ2I)H=X(XTX)−1XT
∥e∥2=∥(I−H)y∥2=yT(I−H)y.
H
с параметром нецентральности
δ = β T X T ( I - H ) X β = β T ( X T X - X T X ) β = 0 , так что на самом деле это центральный
χ 2 с
n - pyT(I−H)y/σ2∼χ2n−p(δ)
δ=βTXT(I−H)Xβ=βT(XTX−XTX)β=0χ2n−pстепеней свободы (это частный случай теоремы
Кохрана ). Я использую
для обозначения количества столбцов
X , поэтому, если один столбец
X дает перехват, то у нас будет
p - 1 предиктор без перехвата. Некоторые авторы используют
p как число предикторов без перехвата, поэтому иногда вы можете увидеть что-то вроде
n - p - 1 в степенях свободы, но это все одно и то же.
pXXp−1pn−p−1
Результатом этого является то, что , так что σ 2 : = 1E(eTe/σ2)=n−pпрекрасно работает как оценкаσ2.σ^2:=1n−peTeσ2
Это означает , что
β J
- это отношение стандартного гауссиана к хи-квадрату, деленное на его степени свободы. Чтобы закончить это, нам нужно показать независимость и мы можем использовать следующий результат:
β^jσ^Sj=β^jSjeTe/(n−p)−−−−−−−−−−√=β^jσSjeTeσ2(n−p)−−−−−−√
Результат: для и матриц A и B в R l × k и R m × k соответственно, A Z и B Z независимы тогда и только тогда, когда A Σ B T = 0 (это упражнение 58 (b) в главе 1 «Математической статистики Цзюнь Шао» ).Z∼Nk(μ,Σ)ABRl×kRm×kAZBZAΣBT=0
Мы имеем β = ( X T X ) - 1 X Т у и е = ( Я - Н ) у , где у ~ N ( X β , сг 2 I ) . Это означает
( X T X ) - 1 X T ⋅ σ 2 I ⋅ ( I - H ) T = σ 2β^=(XTX)−1XTye=(I−H)yy∼N(Xβ,σ2I)
так & beta ; ⊥е, иследовательно , & beta ; ⊥ е Т е.
(XTX)−1XT⋅σ2I⋅(I−H)T=σ2((XTX)−1XT−(XTX)−1XTX(XTX)−1XT)=0
β^⊥eβ^⊥eTe
Результатом является теперь мы знаем
, бета J
по желанию (при всех вышеуказанных допущений).
β^jσ^Sj∼tn−p
C=(AB)(l+m)×kAB
CZ=(AZBZ)∼N((AμBμ),CΣCT)
CΣCT=(AB)Σ(ATBT) = ( A Σ ATB Σ ATA Σ BTB Σ BT) .
СZA Σ BT= 0A ZB ZСZ
□
@ Chaconne ответ велик. Но вот гораздо более короткая нематематическая версия!
Поскольку цель состоит в том, чтобы вычислить значение P, сначала необходимо определить нулевую гипотезу. Почти всегда, это то, что наклон фактически горизонтальный, поэтому числовое значение для наклона (бета) составляет 0,0.
Склон соответствует вашим данным не 0,0. Это расхождение из-за случайной случайности или из-за неправильной гипотезы? Вы никогда не сможете ответить на этот вопрос наверняка, но значение P - это один из способов получить ответ.
Программа регрессии сообщает стандартную ошибку наклона. Вычислите коэффициент t как наклон, деленный на его стандартную ошибку. На самом деле это (наклон минус нулевой наклон гипотезы), деленный на стандартную ошибку, но наклон нулевой гипотезы почти всегда равен нулю.
Теперь у вас есть в соотношении. Число степеней свободы (df) равно количеству точек данных минус количество параметров, подходящих для регрессии (два для линейной регрессии).
С помощью этих значений (t и df) вы можете определить значение P с помощью онлайн-калькулятора или таблицы.
По сути, это t-критерий с одной выборкой, сравнивающий наблюдаемое вычисленное значение (наклон) с гипотетическим значением (нулевая гипотеза).
источник