Я новичок в статистике и пытаюсь понять разницу между ANOVA и линейной регрессией. Я использую R, чтобы исследовать это. Я читал различные статьи о том, почему ANOVA и регрессия различны, но все еще одинаковы, и как их можно визуализировать и т. Д. Я думаю, что я там довольно, но один бит все еще отсутствует.
Я понимаю, что ANOVA сравнивает дисперсию внутри групп с дисперсией между группами, чтобы определить, есть ли разница между какой-либо из протестированных групп. ( https://controls.engin.umich.edu/wiki/index.php/Factor_analysis_and_ANOVA )
Что касается линейной регрессии, я нашел сообщение на этом форуме, в котором говорится, что то же самое можно проверить, когда мы проверяем, равен ли b (наклон) = 0. ( Почему ANOVA преподается / используется так, как если бы это была другая методология исследования по сравнению с линейной регрессией? )
Для более чем двух групп я нашел сайт, на котором было написано:
Нулевая гипотеза:
Модель линейной регрессии:
Однако результатом линейной регрессии является перехват для одной группы и разница с этим перехватом для двух других групп. ( http://www.real-statistics.com/multiple-regression/anova-using-regression/ )
Для меня это выглядит так, что на самом деле перехваты сравниваются, а не наклоны?
Другой пример, где они сравнивают перехваты, а не наклоны, можно найти здесь: ( http://www.theanalysisfactor.com/why-anova-and-linear-regression-are-the-same-analysis/ )
Я сейчас пытаюсь понять, что на самом деле сравнивается в линейной регрессии? склоны, перехваты или оба?
источник
Ответы:
Ваше заблуждение связано с тем, что вы должны быть очень осторожны, чтобы понять, какие перехваты и уклоны вы имеете в виду (перехват каких? Наклон чего?).
Роль коэффициента манекена 0-1 в регрессии можно рассматривать как наклон и разницу перехватов.
Давайте упростим вещи, насколько это возможно, рассмотрев случай с двумя примерами.
Мы все еще можем сделать односторонний ANOVA с двумя выборками, но он, по сути, такой же, как двусторонний t-критерий с двумя выборками (случай равной дисперсии).
Вот диаграмма ситуации с населением:
Если , то линейная модель населенияδ= μ2- μ1
так что когда (что имеет место, когда мы в группе 1), среднее значение равно и когда (когда мы в группе 2) среднее значение равно .х = 0 Y μ1+ δ× 0 = μ1 х = 1 μ 1 + δ × 1 = μ 1 + μ 2 - μ 1 = μ 2Y μ1+ δ× 1 = μ1+ μ2- μ1= μ2
Это и есть коэффициент наклона ( в данном случае ), а разница в средних (и вы можете подумать, что эти средства являются перехватчиками) одинакова.δ
Чтобы помочь с конкретностью, вот два примера:
Как они выглядят?
Как выглядит критерий различия в средствах?
В качестве t-теста:
Как регрессия:
Из регрессии видно, что термин «перехват» является средним для группы 1, а коэффициент «groupg2» (коэффициент «наклона») - это разность в среднем по группе. Между тем значение р для регрессии такое же, как значение р для t-теста (0,003976)
источник