Имеет ли значение порядок объясняющих переменных при расчете их коэффициентов регрессии?

24

Сначала я думал, что порядок не имеет значения, но потом я прочитал о процессе ортогонализации Грамма-Шмидта для вычисления множественных коэффициентов регрессии, и теперь у меня возникли вторые мысли.

Согласно процессу Грамма-Шмидта, чем позже объясняющая переменная индексируется среди других переменных, тем меньше ее остаточный вектор, потому что из него вычитаются остаточные векторы предшествующих переменных. В результате коэффициент регрессии объясняющей переменной также меньше.

Если это так, то остаточный вектор рассматриваемой переменной будет больше, если он был проиндексирован ранее, поскольку из него будет вычтено меньше остаточных векторов. Это означает, что коэффициент регрессии тоже будет больше.

Итак, меня попросили уточнить мой вопрос. Так что я разместил скриншоты из текста, который меня сначала смутил. Хорошо, здесь идет.

Насколько я понимаю, есть как минимум два варианта расчета коэффициентов регрессии. Первый вариант обозначен (3.6) на скриншоте ниже.

Первый путь

Вот второй вариант (мне пришлось использовать несколько скриншотов).

Второй способ

введите описание изображения здесь введите описание изображения здесь

Если я не читаю что-то (что определенно возможно), кажется, что порядок имеет значение во втором варианте. Имеет ли это значение в первом варианте? Почему или почему нет? Или моя система координат настолько испорчена, что это даже не правильный вопрос? Кроме того, все это как-то связано с суммой квадратов типа I против суммы квадратов типа II?

Большое спасибо заранее, я так растерялся!

Райан Зотти
источник
1
Не могли бы вы описать точную процедуру расчета коэффициентов? Исходя из того, что я знаю об ортогонализации по Граму-Шмидту и о том, как ее можно применить к задаче регрессии, я могу предположить, что с помощью процедуры gs вы можете получить соответствие регрессии, но не исходные коэффициенты. Обратите внимание, что регрессионное соответствие - это проекция на пространство столбцов. Если вы ортогонализируете столбцы, вы получаете ортогональную основу пространства, охватывающего столбцы, следовательно, подгонка будет линейной комбинацией этой базы, а также линейной комбинацией исходных столбцов. Это будет то же самое ...
mpiktas
но коэффициенты будут другими. Это совершенно нормально.
mpiktas
Я думаю, что я сбит с толку, потому что я думал, что прочитал в «Элементах статистического обучения», что коэффициенты, вычисленные с использованием процесса Грамма-Шмидта, будут такими же, как и коэффициенты, вычисленные с использованием традиционного процесса: B = (X'X) ^ - 1 X'y.
Райан Зотти
Вот отрывок из книги, в которой говорится о процедуре: «Мы можем рассматривать оценку [коэффициентов] как результат двух применений простой регрессии. Шаги: 1. регрессия x на 1 для получения остаточного z = x - x ̄1; 2. регрессия y на невязке z для получения коэффициента βˆ 1. Этот рецепт обобщается на случай p входов, как показано в алгоритме 3.1. Обратите внимание, что входы z0, ..., zj − 1 на шаге 2 являются ортогональными, поэтому вычисленные простые коэффициенты регрессии на самом деле также являются коэффициентами множественной регрессии ".
Райан Зотти
Когда я копирую и вставляю сюда раздел комментариев, становится немного грязно, так что, вероятно, лучше просто посмотреть на источник напрямую. Это страницы с 53 по 54 «Элементы статистического обучения», которые можно бесплатно загрузить с веб-сайта Стэнфорда: www-stat.stanford.edu/~tibs/ElemStatLearn .
Райан Зотти

Ответы:

22

Я полагаю, что путаница может быть вызвана чем-то более простым, но это дает хорошую возможность рассмотреть некоторые связанные вопросы.

Обратите внимание, что в тексте не утверждается, что все коэффициенты регрессии может быть вычислен через последовательные векторы невязок как но скорее только последний , , может быть рассчитан таким образом! β я ? =У,гяβ^iΒ р

β^i=?y,zizi2,
β^p

Последовательная схема ортогонализации (форма ортогонализации Грама – Шмидта) (почти) создает пару матриц и такой, что где - это с ортонормированными столбцами, а - это верхней треугольной. Я говорю «почти», так как алгоритм задает только до норм столбцов, которые в общем случае не будут единичными, но могут быть сделаны с единичной нормой путем нормализации столбцов и соответствующей простой корректировки координаты матрица .ZX = Z GGZ

X=ZG,
ZG = ( g i j ) p × p Z Gn×pG=(gij)p×pZG

Предполагая, конечно, что имеет ранг , единственным решением наименьших квадратов является вектор который решает систему р п β Х Т Х β = Х Т уXRn×ppnβ^

XTXβ^=XTy.

Подставляя и используя (по построению), получим что эквивалентно Z T Z = Я О Т О β = О Т Z Т уX=ZGZTZ=IG β = Z Т у

GTGβ^=GTZTy,
Gβ^=ZTy.

Теперь сосредоточимся на последнем ряду линейной системы. Единственный ненулевой элемент в последней строке - это . Итак, мы получаем это Нетрудно увидеть (проверьте это как проверку понимания!), Чтои так это дает решение. ( Предостерегающий лектор : я использовал уже нормализованный, чтобы иметь единичную норму, тогда как в книге они не имеют . Это объясняет тот факт, что книга имеет квадратную норму в знаменателе, тогда как у меня есть только норма.)Ggpp

gppβ^p=y,zp.
gpp=zpzi

Чтобы найти все коэффициенты регрессии, нужно выполнить простой шаг обратной подстановки, чтобы найти для индивидуума . Например, для строки , и так Можно продолжить эту процедуру, работая «в обратном направлении» от последнего ряда системы до первого, вычитая взвешенные суммы уже рассчитанных коэффициентов регрессии, а затем деля на главный член чтобы получить .β^i(p1)

gp1,p1β^p1+gp1,pβ^p=zp1,y,
β^p1=gp1,p11zp1,ygp1,p11gp1,pβ^p.
giiβ^i

Суть этого раздела в ESL заключается в том, что мы можем изменить порядок столбцов чтобы получить новую матрицу при этом й исходный столбец теперь является последним. Если мы затем применим процедуру – Шмидта к новой матрице, мы получим новую ортогонализацию, такую, что решение для исходного коэффициента будет найдено простым решением выше. Это дает нам интерпретацию для коэффициента регрессии . Это одномерная регрессия для остаточного вектора, полученная путем "регрессии" оставшихся столбцов матрицы проектирования из .XX(r)rβ^rβ^ryxr

Общие QR-разложения

Процедура Грама-Шмидта , но один способ получения QR - разложение . Действительно, есть много причин, чтобы предпочесть другие алгоритмические подходы процедуре Грамма-Шмидта.X

Размышления домохозяев и ротации Гивенса обеспечивают более численно устойчивые подходы к этой проблеме. Обратите внимание, что вышеприведенное развитие не меняется в общем случае разложения QR. А именно, пусть быть любой QR - разложение . Тогда, используя точно те же рассуждения и алгебраические манипуляции, что и выше, мы получаем, что решение наименьших квадратов удовлетворяет который упрощается до Так как является верхнетреугольной, то работает тот же метод обратной замены. Сначала мы решаем для

X=QR,
Xβ^
RTRβ^=RTQTy,
Rβ^=QTy.
Rβ^pи затем продвигайтесь назад снизу вверх. Выбор для которых QR - разложения алгоритм использовать обычно шарниры на контроль численную неустойчивости и, с этой точки зрения, Гры-Шмидт , как правило , не является конкурентным подходом.

Это понятие разложения как ортогональной матрицы на что-то еще можно обобщить немного дальше, чтобы получить очень общую форму для подобранного вектора , но я боюсь, что этот ответ уже стал слишком длинным ,Xy^

кардинальный
источник
6

Я книгу, и похоже, что упражнение 3.4 может оказаться полезным для понимания концепции использования GS для нахождения всех коэффициентов регрессии (не только конечного коэффициента - поэтому я набрал решение. Надеюсь, это полезно.βjβp

Упражнение 3.4 в ESL

Покажите, как вектор коэффициентов наименьших квадратов может быть получен за один проход процедуры Грамма-Шмидта. Представлять свое решение с точки зрения QR - разложения . X

Решение

Напомним, что за один проход процедуры Грамма-Шмидта мы можем записать нашу матрицу как где содержит ортогональные столбцы , а - матрица верхнего диагонали с матрицами на диагонали, и . Это является отражением того факта, что по определениюX

X=ZΓ,
ZzjΓγij=zi,xjzi2
xj=zj+k=0j1γkjzk.

Теперь, используя разложение, мы можем написать , где - ортогональная матрица, а - верхняя треугольная матрица. У нас и , где - диагональная матрица с, QRX=QRQRQ=ZD1R=DΓDDjj=zj

Теперь по определению имеем Теперь, используя разложение, мы имеемβ^

(XTX)β^=XTy.
QR
(RTQT)(QR)β^=RTQTyRβ^=QTy

R - верхний треугольник, мы можем написать в соответствии с нашими предыдущими результатами. Теперь путем обратной подстановки мы можем получить последовательность коэффициентов регрессии . Например, чтобы вычислить , мы имеем

Rppβ^p=qp,yzpβ^p=zp1zp,yβ^p=zp,yzp2
β^jβ^p1
Rp1,p1β^p1+Rp1,pβ^p=qp1,yzp1β^p1+zp1γp1,pβ^p=zp11zp1,y
и затем решение для . Этот процесс можно повторить для всех , получая таким образом коэффициенты регрессии за один проход процедуры Грамма-Шмидта.β^p1βj
Эндрю Таллох
источник
3

Почему бы не попробовать и сравнить? Установите набор коэффициентов регрессии, затем измените порядок и установите их снова и посмотрите, отличаются ли они (кроме возможной ошибки округления).

Как указывает @mpiktas, не совсем понятно, что вы делаете.

Я могу видеть использование GS для решения для в уравнении наименьших квадратов . Но тогда вы будете делать GS на , а не на исходных данных. В этом случае коэффициенты должны быть одинаковыми (кроме возможной ошибки округления).( x x ) B = ( x y ) ( x x )B(xx)B=(xy)(xx)

Другой подход GS в регрессии заключается в применении GS к переменным предикторам для устранения коллинеарности между ними. Тогда ортогонализированные переменные используются в качестве предикторов. В этом случае порядок имеет значение, и коэффициенты будут отличаться, потому что интерпретация коэффициентов зависит от порядка. Рассмотрим 2 предиктора и и выполните GS для них в этом порядке, а затем используйте их в качестве предикторов. В этом случае первый коэффициент (после перехвата) сам по себе показывает влияние на , а второй коэффициент - это влияние на после корректировки наx 2 x 1 y x 2 y x 1 x 2 y x 1 x 1 x 2x1x2x1yx2yx1, Теперь, если вы измените порядок на x, тогда первый коэффициент показывает влияние на само по себе (игнорируя а не подстраиваясь под него), а второй - это эффект поправкой на .x2yx1x1x2

Грег Сноу
источник
Я думаю, что ваш последний абзац, вероятно, ближе всего к источнику моего замешательства - GS действительно делает порядок вопроса. Это то, о чем я думал. Я все еще немного сбит с толку, потому что книга, которую я читаю, называется: «Элементы статистического обучения» (публикация Стэнфорда, которая находится в свободном доступе: www-stat.stanford.edu/~tibs/ElemStatLearn ), кажется, предположить, что GS эквивалентно стандартному подходу для расчета коэффициентов; то есть B = (X'X) ^ - 1 X'y.
Райан Зотти
И часть того, что вы говорите, меня тоже немного смущает: «Я могу видеть, как GS решает для B в уравнении наименьших квадратов (x′x) ^ - 1 B = (x′y). Но тогда вы будете делать GS на матрице (x'x), а не на исходных данных. " Я думал, что матрица х'х содержала исходные данные? ... По крайней мере, так говорит «Элемент статистического обучения». Он говорит, что x в x'x - это матрица N by p, где N - количество входов (наблюдений), а p - количество измерений.
Райан Зотти
Если GS не является стандартной процедурой для расчета коэффициентов, то как обычно обрабатывается коллинеарность? Как избыточность (коллинеарность) обычно распределяется среди х? Разве коллинеарность традиционно не делает коэффициенты нестабильными? Тогда разве это не говорит о том, что процесс GS является стандартным процессом? Поскольку процесс GS также делает коэффициенты нестабильными - меньший остаточный вектор делает коэффициент нестабильным.
Райан Зотти
По крайней мере, так говорится в тексте: «Если xp сильно коррелирует с некоторыми другими xk, остаточный вектор zp будет близок к нулю, и из (3.28) коэффициент βˆp будет очень нестабильным».
Райан Зотти
2
Обратите внимание, что GS является формой QR-разложения.
кардинал