У меня есть две регрессии одного и того же Y и трехуровневого X. В целом n = 15, с n = 5 в каждой группе или уровне X. Первая регрессия рассматривает X как категоричный, присваивая переменные индикатора уровням 2 и 3 с уровнем один из которых является ссылкой. Индикаторы / манекены выглядят так: X1 = 1, если уровень = 2, 0, если еще X2 = 1, если уровень = 3, 0, если еще
В результате моя подогнанная модель выглядит примерно так: y = b0 + b1 (x1) + b2 (x2)
Я запускаю регрессию, и вывод включает в себя эту таблицу анализа отклонений:
Остальная часть вывода здесь не имеет значения.
Хорошо, теперь я запускаю другую регрессию на тех же данных. Я отказываюсь от категориального анализа и рассматриваю X как непрерывный, но добавляю переменную к уравнению: X ^ 2, квадрат X. Итак, теперь у меня есть следующая модель: y = b0 + b1 (X) + b2 (X) ^ 2
Если я запускаю его, он выдает ту же таблицу анализа отклонений, которую я показал вам выше. Почему эти две регрессии дают одинаковые таблицы?
[Благодарность за эту маленькую загадку достается Томасу Белину из Отдела биостатистики Калифорнийского университета в Лос-Анджелесе.]
источник
Ответы:
В матричных терминах ваши модели имеют обычный вид .E[Y]=Xβ
Первая модель представляет элемент первой группы строкой в , соответствующей перехвату, индикатору для категории 2 и индикатору для категории 3. Она представляет элемент второй группы как строка и элемент третьей группы по .(1,0,0) X (1,1,0) (1,0,1)
Вторая модель вместо этого использует строки , и соответственно.(1,1,12)=(1,1,1) (1,2,22)=(1,2,4) (1,3,32)=(1,3,9)
Назовем получившиеся модельные матрицы и . Они просто связаны: столбцы одного являются линейными комбинациями столбцов другого. Например, пустьX1 X2
Тогда с
следует, что
Таким образом, сами модели связаны
То есть коэффициенты для второй модели должны быть связаны с коэффициентами первой черезβ2
То же самое соотношение, следовательно, справедливо для оценок наименьших квадратов. Это показывает, что модели имеют одинаковые соответствия : они просто выражают их по-разному.
Поскольку первые столбцы двух матриц модели совпадают, любая таблица ANOVA, которая разбирает дисперсию между первым и остальными столбцами, не изменится. Таблица ANOVA, которая различает второй и третий столбцы, будет зависеть от способа кодирования данных.
Геометрически (и несколько более абстрактно) трехмерное подпространство сгенерированное столбцами совпадает с подпространством, сгенерированным столбцами . Поэтому модели будут иметь одинаковую посадку. Приступы выражены по-разному только потому, что пространства описаны с двумя различными основаниями. X 1 X 2R15 X1 X2
Чтобы проиллюстрировать это, приведите данные, подобные вашим (но с разными ответами), и соответствующие анализы, сгенерированные в
R
.Подходят две модели:
Показать их таблицы ANOVA:
Выход для первой модели
Для второй модели это
Вы можете видеть, что остаточные суммы квадратов одинаковы. Добавив первые две строки во второй модели, вы получите тот же DF и сумму квадратов, из которых можно вычислить один и тот же средний квадрат, значение F и значение p.
Наконец, давайте сравним оценки коэффициентов.
Выход
Даже перехваты совершенно разные. Это связано с тем, что оценки любой переменной в множественной регрессии зависят от оценок всех других переменных (если только они не взаимно ортогональны, что не относится ни к одной из моделей). Однако посмотрите, что выполняет умножение на :V
Приступы действительно такие же, как заявлено.
источник
Вкратце, обе модели насыщены в том смысле, что они обеспечивают уникальные эмпирические прогнозы ответа на всех 3 уровнях X. Это может быть очевидно для кодирования факторной переменной в модели 1. Для квадратичной тенденции интересно отметить, что Квадратичная формула может интерполировать любые 3 точки. Хотя контрасты различны, в обеих моделях глобальный тест на нулевую модель только для перехвата обеспечивает идентичный вывод.
источник