Разница между t-тестом и ANOVA в линейной регрессии

Интересно, чем отличаются t-тест и ANOVA в линейной регрессии?

Является ли t-тест для проверки того, имеет ли какой-либо из уклонов и пересечений среднее значение «ноль», а ANOVA для проверки того, имеет ли все уклоны среднее значение «ноль»? Это единственная разница между ними?
В простой линейной регрессии, т. Е. Там, где есть только одна переменная-предиктор, существует только один наклон для оценки. Итак, эквивалентны ли t-тест и ANOVA, и если да, то как, учитывая, что они используют разные статистические данные (t-тест использует t-статистику, а ANOVA использует F-статистику)?

regression anova t-test Тим
источник

Объявление 1) В линейной регрессии я обычно понимаю ANOVA как меру соответствия модели, т. Е. Чтобы решить, объясняет ли модель (линия регрессии) существенную часть общей изменчивости. Вопрос, является ли он равным нулю для всех склонов, действительно очень интересен. Объявление 2) похоже, что в этом случае я получаю почти одинаковые p-значения для t-теста и регрессии ANOVA. Действительно интересная теорема!

любопытно

Ответы:

Общая линейная модель позволяет нам написать модель ANOVA в качестве модели регрессии. Предположим, у нас есть две группы с двумя наблюдениями в каждой, то есть четыре наблюдения в векторе . Тогда исходная сверхпараметризованная модель имеет вид , где - матрица предикторов, т. Е. Фиктивные переменные индикатора: $y$ $E(y) = X^{\star} \beta^{\star}$ $X^{\star}$

(\begin{matrix} μ_{1} \\ μ_{1} \\ μ_{2} \\ μ_{2} \end{matrix}) = (\begin{array}{ccc} 1 & 1 & 0 \\ 1 & 1 & 0 \\ 1 & 0 & 1 \\ 1 & 0 & 1 \end{array}) (\begin{matrix} β_{0}^{⋆} \\ β_{1}^{⋆} \\ β_{2}^{⋆} \end{matrix})

$\left(\begin{array}{c}\mu_{1} \\ \mu_{1} \\ \mu_{2} \\ \mu_{2}\end{array}\right) = \left(\begin{array}{ccc}1 & 1 & 0 \\ 1 & 1 & 0 \\ 1 & 0 & 1 \\ 1 & 0 & 1\end{array}\right) \left(\begin{array}{c}\beta_{0}^{\star} \\ \beta_{1}^{\star} \\ \beta_{2}^{\star}\end{array}\right)$

Параметры не могут быть идентифицированы как потому что имеет ранг 2 ( не является обратимым). Чтобы изменить это, мы вводим ограничение (контрасты лечения), что дает нам новую модель : $((X^{\star})' X^{\star})^{-1} (X^{\star})' E(y)$ $X^{\star}$ $(X^{\star})'X^{\star}$ $\beta_{1}^{\star} = 0$ $E(y) = X \beta$

(\begin{matrix} μ_{1} \\ μ_{1} \\ μ_{2} \\ μ_{2} \end{matrix}) = (\begin{array}{cc} 1 & 0 \\ 1 & 0 \\ 1 & 1 \\ 1 & 1 \end{array}) (\begin{matrix} β_{0} \\ β_{2} \end{matrix})

$\left(\begin{array}{c}\mu_{1} \\ \mu_{1} \\ \mu_{2} \\ \mu_{2}\end{array}\right) = \left(\begin{array}{cc}1 & 0 \\ 1 & 0 \\ 1 & 1 \\ 1 & 1\end{array}\right) \left(\begin{array}{c}\beta_{0} \\ \beta_{2}\end{array}\right)$

Итак, , т. принимает значение ожидаемого значения из нашей справочной категории (группа 1). , т. е. принимает значение различия для справочной категории. Поскольку с двумя группами есть только один параметр, связанный с групповым эффектом, нулевая гипотеза ANOVA (все параметры группового эффекта равны 0) совпадает с нулевой гипотезой регрессионного веса (параметр наклона равен 0). $\mu_{1} = \beta_{0}$ $\beta_{0}$ $\mu_{2} = \beta_{0} + \beta_{2}$ $\beta_{2}$ $\mu_{2} - \mu_{1}$

-test в общей линейной модели проверяет линейную комбинацию параметров против гипотетического значения при нулевой гипотезы. Выбрав , мы можем проверить гипотезу, что (обычный тест для параметра наклона), то есть здесь , Оценщик: , где - это МНК оценки для параметров. Общий тест статистики для такого составляет: $t$ $\psi = \sum c_{j} \beta_{j}$ $\psi_{0}$ $c = (0, 1)'$ $\beta_{2} = 0$ $\mu_{2} - \mu_{1} = 0$ $\hat{\psi} = \sum c_{j} \hat{\beta}_{j}$ $\hat{\beta} = (X'X)^{-1} X' y$ $\psi$

t = \frac{\hat{ψ} - ψ_{0}}{\hat{σ} \sqrt{c^{'} (X^{'} X)^{- 1} c}}

$t = \frac{\hat{\psi} - \psi_{0}}{\hat{\sigma} \sqrt{c' (X'X)^{-1} c}}$

$\hat{\sigma}^{2} = \|e\|^{2} / (n-\mathrm{Rank}(X))$ - объективная оценка дисперсии ошибок, где - сумма квадратов невязок. В случае двух групп , , и , таким образом , являются оценками и . С 1 в нашем случае, статистика теста становится такой: $\|e\|^{2}$ $\mathrm{Rank}(X) = 2$ $(X'X)^{-1} X' = \left(\begin{smallmatrix}.5 & .5 & 0 & 0 \\-.5 & -.5 & .5 & .5\end{smallmatrix}\right)$ $\hat{\beta}_{0} = 0.5 y_{1} + 0.5 y_{2} = M_{1}$ $\hat{\beta}_{2} = -0.5 y_{1} - 0.5 y_{2} + 0.5 y_{3} + 0.5 y_{4} = M_{2} - M_{1}$ $c' (X'X)^{-1} c$

t = \frac{M_{2} - M_{1} - 0}{\hat{σ}} = \frac{M_{2} - M_{1}}{\sqrt{‖ e ‖^{2} / (n - 2)}}

$t = \frac{M_{2} - M_{1} - 0}{\hat{\sigma}} = \frac{M_{2} - M_{1}}{\sqrt{\|e\|^{2} / (n-2)}}$

$t$ есть -distributed с ДФ (здесь ). Когда квадрат , вы получаете , тестовая статистика из ANOVA -test для двух групп ( для между ними, для внутри групп) , которые следует за - распределение с 1 и df. $t$ $n - \mathrm{Rank}(X)$ $n-2$ $t$ $\frac{(M_{2} - M_{1})^{2} / 1}{\|e\|^{2} / (n-2)} = \frac{SS_{b} / df_{b}}{SS_{w} / df_{w}} = F$ $F$ $b$ $w$ $F$ $n - \mathrm{Rank}(X)$

С более чем двумя группами гипотеза ANOVA (все равны 0, с ) относится к более чем одному параметру и не может быть выражена как линейная комбинация , поэтому тесты не эквивалентны , $\beta_{j}$ $1 \leq j$ $\psi$

каракал
источник

В 1 ANOVA обычно проверяет факторные переменные и то, является ли разница между группами значимой. Вы четко увидите разницу, если ваше программное обеспечение разрешает использовать переменные индикатора в регрессии: для каждого манекена вы получите значение ap, указывающее, значительно ли отличается оценка этой группы от 0, и, как следствие, значительно отличается от применяемой контрольной группы или контрольного значения. , Обычно вы не увидите, насколько важен сам индикатор, пока не пройдете тест ANOVA.

F-тест - это квадрат-критерий Стьюдента. Поэтому в 2-х то же самое.

Труд, работа
источник

Благодарность! (1) Что означают переменные индикатора? (2) Как правило, t-критерий эквивалентен ANOVA, только когда есть только две группы. Но в простой линейной регрессии может быть более двух групп, где число групп - это число значений, которые переменная предиктора принимает в наборе данных.

Тим

(1) Индикатор или категориальная или факторная переменная ... все то же самое. (2) Действительно, но вы, возможно, захотите узнать, насколько хорошо набор манекенов / категорий получает от ANOVA.

Труд

Благодарность! (2) Так что в простой линейной регрессии, как т-тест эквивалентен ANOVA, учитывая, что существует более двух групп? Что означает «насколько хорошо набор баллов / категорий от ANOVA» и почему я хочу это знать?

Тим

В регрессии OLS R² (объясненная дисперсия) будет равно eta² или MSS / TSS из ANOVA независимо от того, сколько групп вы определяете. Далее, вы можете узнать вклад набора манекенов (то есть переменной индикатора), чтобы сказать, является ли сам набор релевантным и в какой степени, что отличается от значимости различия между одной категорией и эталонной категорией. ,

Труд