Для простой линейной регрессии коэффициент регрессии вычисляется непосредственно из дисперсионно-ковариационной матрицы , используя где - индекс зависимой переменной, а - индекс объясняющей переменной.
Если есть только ковариационная матрица, можно ли рассчитать коэффициенты для модели с несколькими объясняющими переменными?
ETA: кажется, что для двух объясняющих переменных и аналогично для . Я не сразу вижу, как расширить это до трех или более переменных. β2
Ответы:
Да, ковариационная матрица всех переменных - объяснительная и ответная - содержит информацию, необходимую для нахождения всех коэффициентов, при условии, что в модель включен член пересечения (постоянный). (Хотя ковариации не дают информации о постоянном члене, его можно найти из данных.)
Анализ
Пусть данные для пояснительных переменных быть расположены как - мерные векторы - столбцы и переменной отклика быть вектор - столбец , считается реализация случайной величины . Обычные наименьшие квадраты оценивают коэффициентов в моделих 1 , х 2 , ... , х р у Y βN Икс1, х2, … , Хп Y Y β^
получены путем сборки векторов столбцов в массив и решения системы линейных уравненийX 0 = ( 1 , 1 , … , 1 ) ′ , X 1 , … , X p n × p + 1 Xp+1 X0=(1,1,…,1)′,X1,…,Xp n×p+1 X
Это эквивалентно системе
Устранение Гаусса решит эту систему. Это происходит путем присоединения матрицы и -вектора в массив и сокращение строки. 1p+1×p+1 p+111nX′X p+1 p+1×p+2A1nX′y p+1×p+2 A
Первым шагом будет проверка . Обнаружив, что это ненулевое значение, он начинает вычитать соответствующие кратные значения первой строки из оставшихся строк, чтобы обнулить оставшиеся записи в его первом столбце. Эти множители будут а число, вычтенное из записи будет равно . Это просто формула для ковариации и . Кроме того, число, оставленное в позиции равноA11n(X′X)11=1nX′0X0=1 A Ai+1,j+1=X ′ i Xj ¯ X i ¯1nX′0Xi=X¯¯¯¯i Ai+1,j+1=X′iXj XiXji+1,p+21X¯¯¯¯iX¯¯¯¯j Xi Xj i+1,p+2 Xiy1nX′iy−Xi¯¯¯¯¯¯y¯¯¯ , ковариация с .Xi y
Таким образом, после первого шага исключения Гаусса система сводится к решению
и, разумеется, поскольку все коэффициенты являются ковариациями, это решение можно найти из ковариационной матрицы всех переменных.
(Когда обратимо, решение можно записать как . Приведенные в этом вопросе формулы являются частными случаями этого, когда и Написание таких формул в явном виде будет становиться все более и более сложным по мере роста Кроме того, они уступают численным вычислениям, которые лучше всего выполнять путем решения системы уравнений, а не путем инвертирования матрицы )C - 1 ( Cov ( X i , y ) ) ′ p = 1 p = 2 p CC C−1(Cov(Xi,y))′ p=1 p=2 p C
Постоянный член будет разницей между средним значением и средними значениями, предсказанными на основе оценок, .Й βy Xβ^
пример
Для иллюстрации следующий
R
код создает некоторые данные, вычисляет их ковариации и получает оценки коэффициента наименьших квадратов исключительно из этой информации. Он сравнивает их с оценками, полученными из оценки методом наименьших квадратовlm
.Выходные данные показывают соответствие между двумя методами:
источник
cov(z)
y
иx
иbeta.hat
.y
Иx
являются частью исходных данных. Можно ли получить перехват из ковариационной матрицы и одними средствами? Не могли бы вы предоставить обозначение?