R: Anova и линейная регрессия

Я новичок в статистике и пытаюсь понять разницу между ANOVA и линейной регрессией. Я использую R, чтобы исследовать это. Я читал различные статьи о том, почему ANOVA и регрессия различны, но все еще одинаковы, и как их можно визуализировать и т. Д. Я думаю, что я там довольно, но один бит все еще отсутствует.

Я понимаю, что ANOVA сравнивает дисперсию внутри групп с дисперсией между группами, чтобы определить, есть ли разница между какой-либо из протестированных групп. ( https://controls.engin.umich.edu/wiki/index.php/Factor_analysis_and_ANOVA )

Что касается линейной регрессии, я нашел сообщение на этом форуме, в котором говорится, что то же самое можно проверить, когда мы проверяем, равен ли b (наклон) = 0. ( Почему ANOVA преподается / используется так, как если бы это была другая методология исследования по сравнению с линейной регрессией? )

Для более чем двух групп я нашел сайт, на котором было написано:

Нулевая гипотеза: $\text{H}_0: µ_1 = µ_2 = µ_3$

Модель линейной регрессии: $y = b_0 + b_1X_1 + b_2X_2 + e$

Однако результатом линейной регрессии является перехват для одной группы и разница с этим перехватом для двух других групп. ( http://www.real-statistics.com/multiple-regression/anova-using-regression/ )

Для меня это выглядит так, что на самом деле перехваты сравниваются, а не наклоны?

Другой пример, где они сравнивают перехваты, а не наклоны, можно найти здесь: ( http://www.theanalysisfactor.com/why-anova-and-linear-regression-are-the-same-analysis/ )

Я сейчас пытаюсь понять, что на самом деле сравнивается в линейной регрессии? склоны, перехваты или оба?

r regression anova Павел
источник

См. Также stats.stackexchange.com/questions/268006/…

kjetil b halvorsen

это похоже на то, что на самом деле перехваты сравниваются, а не наклоны?

Ваше заблуждение связано с тем, что вы должны быть очень осторожны, чтобы понять, какие перехваты и уклоны вы имеете в виду (перехват каких? Наклон чего?).

Роль коэффициента манекена 0-1 в регрессии можно рассматривать как наклон и разницу перехватов.

Давайте упростим вещи, насколько это возможно, рассмотрев случай с двумя примерами.

Мы все еще можем сделать односторонний ANOVA с двумя выборками, но он, по сути, такой же, как двусторонний t-критерий с двумя выборками (случай равной дисперсии).

Вот диаграмма ситуации с населением:

две группы средств как регрессия, популяционная ситуация

Если , то линейная модель населения $\delta = \mu_2-\mu_1$

$y = \mu_1 + \delta x + e$

так что когда (что имеет место, когда мы в группе 1), среднее значение равно и когда (когда мы в группе 2) среднее значение равно . $x=0$ $y$ $\mu_1 + \delta \times 0 = \mu_1$ $x=1$ $y$ $\mu_1 + \delta \times 1 = \mu_1 + \mu_2 - \mu_1 = \mu_2$

Это и есть коэффициент наклона ( в данном случае ), а разница в средних (и вы можете подумать, что эти средства являются перехватчиками) одинакова. $\delta$

Чтобы помочь с конкретностью, вот два примера:

Group1:  9.5  9.8 11.8
Group2: 11.0 13.4 12.5 13.9

Как они выглядят?

примерный участок

Как выглядит критерий различия в средствах?

В качестве t-теста:

    Two Sample t-test

data:  values by group
t = -5.0375, df = 5, p-value = 0.003976
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -4.530882 -1.469118
sample estimates:
mean in group g1 mean in group g2 
             9.9             12.9

Как регрессия:

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   9.9000     0.4502  21.991 3.61e-06 ***
groupg2       3.0000     0.5955   5.037  0.00398 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.7797 on 5 degrees of freedom
Multiple R-squared:  0.8354,    Adjusted R-squared:  0.8025 
F-statistic: 25.38 on 1 and 5 DF,  p-value: 0.003976

Из регрессии видно, что термин «перехват» является средним для группы 1, а коэффициент «groupg2» (коэффициент «наклона») - это разность в среднем по группе. Между тем значение р для регрессии такое же, как значение р для t-теста (0,003976)

Glen_b - Восстановить Монику
источник

Большое спасибо за этот чрезвычайно полезный пример. Я только что понял, что вопрос остается открытым. Я не понимаю, почему наклон обозначается как μ2 − μ1? Разве наклон не определен как m = дельта Y / дельта X ??

Пол

Его является; но и и т. д. . Короче говоря, когда вы кодируете как 0/1, разница - это разница.

Δ x = 1 - 0 = 1

$\Delta x = 1-0 = 1$

Δ y = (μ_{1} + δ \times 1) - (μ_{1} + δ \times 0) = δ = μ_{2} - μ_{1}

$\Delta y = (\mu_1+\delta\times 1) - (\mu_1+\delta\times 0) = \delta = \mu_2-\mu_1$

Δ y / Δ x = (μ_{2} - μ_{1}) / 1 = μ_{2} - μ_{1}

$\Delta y/\Delta x = (\mu_2-\mu_1)/1 = \mu_2-\mu_1$

Glen_b

+1 мне очень помогла графическая иллюстрация, почему уклон равен разности по средствам !!

Haitao Du

R: Anova и линейная регрессия

Ответы: