Почему распределение T используется для проверки гипотез линейного коэффициента регрессии?

17

На практике использование стандартного T-критерия для проверки значимости коэффициента линейной регрессии является обычной практикой. Механика расчета имеет смысл для меня.

Почему Т-распределение можно использовать для моделирования стандартной тестовой статистики, используемой при проверке гипотез линейной регрессии? Стандартная тестовая статистика, на которую я ссылаюсь:

T0=β^β0SE(β^)
Нейт Парке
источник
Я уверен, что полный и полный ответ на этот вопрос будет довольно долгим. Поэтому, пока вы ждете, чтобы кто-то занялся этим, вы можете получить довольно хорошее представление о том, почему это так, посмотрев некоторые заметки, которые я нашел в Интернете здесь: onlinecourses.science.psu.edu/stat501/node/297 . Обратите особое внимание, что . t(np)2=F(1,np)
StatsStudent
1
Я не могу поверить, что это не дубликат, и все же все против (как по вопросу, так и по ответам) ... Что насчет этого ? Или, возможно, это не дубликат, что означает, что есть (или существовали до сегодняшнего дня) суперосновные темы, которые еще не были освещены в течение почти семи лет существования Cross Validated ... Вау ...
Ричард Харди
@RichardHardy Хм, это звучит как дубликат. Хотя это более многословным, вопрос в том , а именно: «Как я могу доказать , что для β я , β я - β яβ^i"β^iβisβ^itnk
Поджигатель

Ответы:

26

Чтобы понять , почему мы используем распределение Стьюдента, вы должны знать , что лежит в основе распределения р и остаточной суммы квадратов ( R S S ) , поскольку эти два вместе взятые даст вам распределение Стьюдента.β^RSS

Легче часть является распределение р , которое является нормальным распределением - видеть это примечание , что β = ( Х Т Х ) - 1 х Т У , так что линейная функция Y , где Y ~ N ( X β , σ 2 я н ) . В результате он также распределен нормально, β ~ N ( р , σ 2 ( Х Т Х ) -β^β^(XTX)1XTYYYN(Xβ,σ2In)- дайте мне знатьесли вам нужна помощь выведение распределения р .β^N(β,σ2(XTX)1)β^

Кроме того, , где n - количество наблюдений, а p - количество параметров, используемых в вашей регрессии. Доказательство этого немного сложнее, но его также легко получить (см. Доказательство здесь. Почему RSS распределяется по хи-квадрат раз np? ).RSSσ2χnp2np

До этого момента я не рассмотрел все в матрицу / вектор обозначения, но давайте для простоты использования β I и использовать его нормальное распределение , которое даст нам: β я - β яβ^i

β^iβiσ(XTX)ii1N(0,1)

Кроме того, из хи-квадрат распределения имеем: ( n - p ) s 2RSS

(np)s2σ2χnp2

N(0,1)s2=RSSnpσ2tnpχ2(s)/s

β^iβis(XTX)ii1tnp

s(XTX)ii1=SE(β^i)

Дайте мне знать, если это имеет смысл.

francium87d
источник
β^iβiσ(XTX)ii1N(0,1)
4

Ответ на самом деле очень прост: вы используете t-дистрибутив, потому что он в значительной степени разработан специально для этой цели.

x1,x2,,xnx¯=i=1nxi/nx¯

σξ=(x¯μ)n/σN(0,1)σσ^. So, Gosset figured out the distribution when you substitute σ with σ^ in the denominator, and the distribution is now called after his pseduonym "Student t".

The technicalities of linear regression lead to a situation where we can estimate the standard error σ^β of the coefficient estimate β^, but we do not know the true σ, therefore Student t distribution is applied here too.

Аксакал
источник