На практике использование стандартного T-критерия для проверки значимости коэффициента линейной регрессии является обычной практикой. Механика расчета имеет смысл для меня.
Почему Т-распределение можно использовать для моделирования стандартной тестовой статистики, используемой при проверке гипотез линейной регрессии? Стандартная тестовая статистика, на которую я ссылаюсь:
Ответы:
Чтобы понять , почему мы используем распределение Стьюдента, вы должны знать , что лежит в основе распределения р и остаточной суммы квадратов ( R S S ) , поскольку эти два вместе взятые даст вам распределение Стьюдента.βˆ RSS
Легче часть является распределение р , которое является нормальным распределением - видеть это примечание , что β = ( Х Т Х ) - 1 х Т У , так что линейная функция Y , где Y ~ N ( X β , σ 2 я н ) . В результате он также распределен нормально, β ~ N ( р , σ 2 ( Х Т Х ) -βˆ βˆ (XTX)−1XTY Y Y∼N(Xβ,σ2In) - дайте мне знатьесли вам нужна помощь выведение распределения р .βˆ∼N(β,σ2(XTX)−1) βˆ
Кроме того, , где n - количество наблюдений, а p - количество параметров, используемых в вашей регрессии. Доказательство этого немного сложнее, но его также легко получить (см. Доказательство здесь. Почему RSS распределяется по хи-квадрат раз np? ).RSS∼σ2χ2n−p n p
До этого момента я не рассмотрел все в матрицу / вектор обозначения, но давайте для простоты использования β I и использовать его нормальное распределение , которое даст нам: β я - β яβˆi
Кроме того, из хи-квадрат распределения имеем: ( n - p ) s 2RSS
Дайте мне знать, если это имеет смысл.
источник
Ответ на самом деле очень прост: вы используете t-дистрибутив, потому что он в значительной степени разработан специально для этой цели.
The technicalities of linear regression lead to a situation where we can estimate the standard errorσ^β of the coefficient estimate β^ , but we do not know the true σ , therefore Student t distribution is applied here too.
источник