Почему эти таблицы регрессионных анова идентичны?

11

У меня есть две регрессии одного и того же Y и трехуровневого X. В целом n = 15, с n = 5 в каждой группе или уровне X. Первая регрессия рассматривает X как категоричный, присваивая переменные индикатора уровням 2 и 3 с уровнем один из которых является ссылкой. Индикаторы / манекены выглядят так: X1 = 1, если уровень = 2, 0, если еще X2 = 1, если уровень = 3, 0, если еще

В результате моя подогнанная модель выглядит примерно так: y = b0 + b1 (x1) + b2 (x2)

Я запускаю регрессию, и вывод включает в себя эту таблицу анализа отклонений:

Таблица

Остальная часть вывода здесь не имеет значения.

Хорошо, теперь я запускаю другую регрессию на тех же данных. Я отказываюсь от категориального анализа и рассматриваю X как непрерывный, но добавляю переменную к уравнению: X ^ 2, квадрат X. Итак, теперь у меня есть следующая модель: y = b0 + b1 (X) + b2 (X) ^ 2

Если я запускаю его, он выдает ту же таблицу анализа отклонений, которую я показал вам выше. Почему эти две регрессии дают одинаковые таблицы?

[Благодарность за эту маленькую загадку достается Томасу Белину из Отдела биостатистики Калифорнийского университета в Лос-Анджелесе.]

logjammin
источник
Я думаю, вам нужно показать нам код, который «выполняет регрессию» и, возможно, шаг данных (похоже на вывод SAS для меня), который вы используете для создания таблицы данных, на которой вы работаете.
Брэд С.
1
@ Брэд: Не думаю, что это необходимо: ситуация четко описана, и больше не требуется никакой информации, чтобы объяснить, что происходит.
whuber
@whuber Возможно. Я думаю, если вы так говорите, но мне кажется, что это ошибка программирования. Я с нетерпеньем жду твоего ответа.
Брэд С.
1
@Brad Не ошибка программирования: я опубликовал свое объяснение. Это хороший вопрос, с подлинным статистическим интересом (и применимостью).
whuber
Привет, Брэд, это на самом деле из набора проблем - ситуация была дана мне почти так же, как я дал ее вам, ребята, и вопрос вроде был задан таким же образом: «почему они будут одинаковыми?». Я просто изложил это так: две модели, одни и те же таблицы ANOVA, остальные результаты даже не приведены (я должен был это прояснить вместо того, чтобы говорить «неактуально»).
logjammin

Ответы:

22

В матричных терминах ваши модели имеют обычный вид . E[Y]=Xβ

Первая модель представляет элемент первой группы строкой в , соответствующей перехвату, индикатору для категории 2 и индикатору для категории 3. Она представляет элемент второй группы как строка и элемент третьей группы по .(1,0,0)X(1,1,0)(1,0,1)

Вторая модель вместо этого использует строки , и соответственно.(1,1,12)=(1,1,1)(1,2,22)=(1,2,4)(1,3,32)=(1,3,9)

Назовем получившиеся модельные матрицы и . Они просто связаны: столбцы одного являются линейными комбинациями столбцов другого. Например, пустьX1X2

V=(111013028).

Тогда с

(100110101)V=(111124139),

следует, что

X1V=X2.

Таким образом, сами модели связаны

X1β1=E[Y]=X2β2=(X1V)β2=X1(Vβ2).

То есть коэффициенты для второй модели должны быть связаны с коэффициентами первой черезβ2

β1=Vβ2.

То же самое соотношение, следовательно, справедливо для оценок наименьших квадратов. Это показывает, что модели имеют одинаковые соответствия : они просто выражают их по-разному.

Поскольку первые столбцы двух матриц модели совпадают, любая таблица ANOVA, которая разбирает дисперсию между первым и остальными столбцами, не изменится. Таблица ANOVA, которая различает второй и третий столбцы, будет зависеть от способа кодирования данных.

Геометрически (и несколько более абстрактно) трехмерное подпространство сгенерированное столбцами совпадает с подпространством, сгенерированным столбцами . Поэтому модели будут иметь одинаковую посадку. Приступы выражены по-разному только потому, что пространства описаны с двумя различными основаниями. X 1 X 2R15X1X2


Чтобы проиллюстрировать это, приведите данные, подобные вашим (но с разными ответами), и соответствующие анализы, сгенерированные в R.

set.seed(17)
D <- data.frame(group=rep(1:3, each=5), y=rnorm(3*5, rep(1:3, each=5), sd=2))

Подходят две модели:

fit.1 <- lm(y ~ factor(group), D)
fit.2 <- lm(y ~ group + I(group^2), D)

Показать их таблицы ANOVA:

anova(fit.1)
anova(fit.2)

Выход для первой модели

              Df Sum Sq Mean Sq F value   Pr(>F)    
factor(group)  2 51.836  25.918  14.471 0.000634 ***
Residuals     12 21.492   1.791 

Для второй модели это

           Df Sum Sq Mean Sq F value    Pr(>F)    
group       1 50.816  50.816 28.3726 0.0001803 ***
I(group^2)  1  1.020   1.020  0.5694 0.4650488    
Residuals  12 21.492   1.791  

Вы можете видеть, что остаточные суммы квадратов одинаковы. Добавив первые две строки во второй модели, вы получите тот же DF и сумму квадратов, из которых можно вычислить один и тот же средний квадрат, значение F и значение p.

Наконец, давайте сравним оценки коэффициентов.

beta.1.hat <- coef(fit.1)
beta.2.hat <- coef(fit.2)

Выход

(Intercept) factor(group)2 factor(group)3 
  0.4508762      2.8073697      4.5084944 

(Intercept)       group  I(group^2) 
 -3.4627385   4.4667371  -0.5531225 

Даже перехваты совершенно разные. Это связано с тем, что оценки любой переменной в множественной регрессии зависят от оценок всех других переменных (если только они не взаимно ортогональны, что не относится ни к одной из моделей). Однако посмотрите, что выполняет умножение на :V

(111013028)(3.46273854.46673710.5531225)=(0.45087622.80736974.5084944).

Приступы действительно такие же, как заявлено.

Whuber
источник
6
Святой курит, мужик. Я никогда не получал более обдуманного, подробного ответа от вопроса в Интернете. Спасибо x1000, серьезно.
logjammin
Добро пожаловать на наш сайт! Я надеюсь, что вы продолжаете использовать его и с нетерпением ждем вашего вклада.
whuber
1
Я кое-что узнал сегодня! (голосование одобрено)
Брэд С.
Удивительный ответ. Разум взорван!
Кедарпс
5

Вкратце, обе модели насыщены в том смысле, что они обеспечивают уникальные эмпирические прогнозы ответа на всех 3 уровнях X. Это может быть очевидно для кодирования факторной переменной в модели 1. Для квадратичной тенденции интересно отметить, что Квадратичная формула может интерполировать любые 3 точки. Хотя контрасты различны, в обеих моделях глобальный тест на нулевую модель только для перехвата обеспечивает идентичный вывод.

Adamo
источник