Многомерная линейная регрессия против нескольких одномерных моделей регрессии

11

В настройках одномерной регрессии мы пытаемся моделировать

Yзнак равноИксβ+Nояsе

где вектор из наблюдений, а матрица проектирования с предикторами. Решение: . n X R n × m m β 0 = ( X T X ) - 1 X yYрNNИксрN×ммβ0знак равно(ИксTИкс)-1ИксY

В настройках многомерной регрессии мы пытаемся моделировать

Yзнак равноИксβ+Nояsе

где - это матрица из наблюдений и различных скрытых переменных. Решение: . n p β 0 = ( X T X ) - 1 X YYрN×пNпβ0знак равно(ИксTИкс)-1ИксY

Мой вопрос: как это отличается от выполнения другой одномерной линейной регрессии? Я читал здесь, что в последнем случае мы принимаем во внимание корреляцию между зависимыми переменными, но я не вижу этого по математике.п

Рой
источник
1
См. Теорему Фриша-Во-Ловелла.
rsm
1
@amorfati: Так что, если я правильно понимаю, они одинаковы. Почему люди относятся к ним по-разному?
Рой

Ответы:

6

В настройках классической многомерной линейной регрессии мы имеем модель:

Yзнак равноИксβ+ε

где представляет независимые переменные, представляет множественные переменные отклика, а - это термин iid гауссовского шума. Шум имеет нулевое среднее значение и может быть коррелирован по переменным отклика. Максимальное правдоподобное решение для весов эквивалентно решению для наименьших квадратов (независимо от шумовых корреляций) [1] [2]:ИксYε

β^знак равно(ИксTИкс)-1ИксTY

Это эквивалентно независимому решению отдельной задачи регрессии для каждой переменной ответа. Это видно из того факта, что й столбец (содержащий веса для й выходной переменной) можно получить умножением на столбец (содержит значения переменной ответа ).яβ^я(ИксTИкс)-1ИксTяYя

Однако многомерная линейная регрессия отличается от отдельного решения отдельных задач регрессии, поскольку процедуры статистического вывода учитывают корреляции между переменными множественного отклика (например, см. [2], [3], [4]). Например, ковариационная матрица шума отображается в распределениях выборки, статистике испытаний и оценках интервалов.

Другое различие возникает, если мы разрешаем каждой переменной ответа иметь свой собственный набор ковариат:

Yязнак равноИксяβя+εя

где представляет ую переменную ответа, а и представляют соответствующий ей набор ковариат и шумового члена. Как указано выше, условия шума могут коррелироваться между переменными отклика. В этом параметре существуют оценщики, которые более эффективны, чем метод наименьших квадратов, и их нельзя сводить к решению отдельных задач регрессии для каждой переменной отклика. Например, см. [1].YяяИксяεя

использованная литература

  1. Зеллнер (1962) . Эффективный метод оценки, казалось бы, не связанных регрессий и тестов на смещение агрегации.
  2. Хелвиг (2017) . Многомерная линейная регрессия [Слайды]
  3. Fox and Weisberg (2011) . Многомерные линейные модели в R. [Приложение к: Сопоставление R с прикладной регрессией]
  4. Майтра (2013) . Модели многомерной линейной регрессии. [Слайды]
user20160
источник
1
Спасибо, теперь стало понятнее. У вас есть ссылка на эту формулировку? Я встречал только форму наименьших квадратов. Кроме того, вы знаете, что пакет Python реализует это?
Рой
1
Вторая ссылка запрос. Принимается ли корреляция как просто ковариация результатов, или вы узнаете какой-то вид условной ковариации?
generic_user
Я не уверен на 100%, что @ user20160 имел в виду это, но я думаю, что они имели в виду оценку уравнений / обобщенные уравнения оценки. EE / GEE согласуются, когда ковариационная структура не указана, и вы также можете установить ожидаемую ковариационную структуру. Тем не менее, эти модели итеративно оцениваются в отличие от МНК с замкнутой формой. Вы должны быть в состоянии оценить GEE / EE в Python, но я не знаю пакетов.
Якобус
1
@Roy Я переписал ответ и добавил ссылки. Мой оригинальный пост предполагал, что это последний абзац исправленного поста. Я постараюсь добавить больше деталей позже.
user20160