Аналитическое решение для оценки коэффициента линейной регрессии

9

Я пытаюсь понять матричные обозначения и работаю с векторами и матрицами.

Сейчас я хотел бы понять , как вектор коэффициентов оценки & betaβ^ в множественной регрессии вычисляется.

Основное уравнение, кажется,

ddβ(yXβ)(yXβ)=0.

Теперь, как бы я решил для вектораβ здесь?

редактировать : Подожди, я застрял. Я здесь и не знаю, как продолжить

ddβ((y1y2yn)(1x11x12x1p1x21x22x2p1xn1xn2xnp)(β0β1βp))((y1y2yn)(1x11x12x1p1x21x22x2p1xn1xn2xnp)(β0β1βp))

ddβi=1n(yi(1xi1xi2xip)(β0β1βp))2

С для всехяxi0=1i являюсь перехват:

ddβi=1n(yik=0pxikβk)2

Можете ли вы указать мне правильное направление?

Александр Энгельгардт
источник
@GaBorgulya, спасибо за редактирование, не знали smallmatrix, поэтому не пытались редактировать, так как обычное решение разбиения формулы в несколько строк здесь бы не сработало.
mpiktas

Ответы:

12

У нас есть

ddβ(yXβ)(yXβ)=2X(yXβ).

Это можно показать, написав уравнение явно с компонентами. Например, напишите вместо β . Затем возьмите производные по β 1 , β 2 , ..., β p и сложите все, чтобы получить ответ. Для быстрой и простой иллюстрации вы можете начать с p = 2(β1,,βp)ββ1β2βpp=2 .

С опытом вырабатываете общие правила, некоторые из которых приведены, например, в этом документе. .

Изменить руководство по добавленной части вопроса

При имеемp=2

(yXβ)(yXβ)=(y1x11β1x12β2)2+(y2x21β1x22β2)2

Производная по имеет видβ1

2x11(y1x11β1x12β2)2x21(y2x21β1x22β2)

Аналогично, производная по имеет видβ2

2x12(y1x11β1x12β2)2x22(y2x21β1x22β2)

Следовательно, производная по имеет видβ=(β1,β2)

(2x11(y1x11β1x12β2)2x21(y2x21β1x22β2)2x12(y1x11β1x12β2)2x22(y2x21β1x22β2))

Теперь обратите внимание, что вы можете переписать последнее выражение как

2(x11x21x12x22)(y1x11β1x12β2y2x21β1x22β2)=2X(yXβ)

Конечно, все сделано таким же образом для большего .p

ocram
источник
Круто, я искал именно этот тип PDF. Благодаря тонну!
Александр Энгельхардт,
О, я думал, что смогу сделать это сам сейчас, но не могу. Можете ли вы сказать мне, если мои шаги верны или я должен пойти «другим путем», чтобы решить эту проблему?
Александр Энгельхардт,
@Alexx Hardt: Мое первое уравнение в редактировании совпадает с вашим последним уравнением в конкретном случае, когда p = 2. Таким образом, вы можете имитировать мои вычисления для компонентов 3, 4, ..., p.
Октябрь
Еще раз спасибо :) Я думаю, что на самом деле я буду использовать все три предложения. Я создаю .pdf, который объясняет и суммирует базовую алгебру матриц статистики, потому что я почему-то никогда не хотел изучать ее, когда учил на своих уроках. Надеюсь, решение этой проблемы тремя различными способами поможет мне лучше понять ее.
Александр Энгельгардт,
О, но это для p = 2 и n = 2, верно? Я запишу это с n = 3, я думаю.
Александр Энгельхардт,
13

Вы также можете использовать формулы из поваренной книги Matrix . У нас есть

(yXβ)(yXβ)=yyβXyyXβ+βXXβ

Теперь возьмите производные каждого термина. Вы можете заметить, что . Производная от термина у ' у относительно р равен нулю. Оставшийся срокβXy=yXβyyβ

βXXβ2yXβ

имеет форму функции

f(x)=xAx+bx,

в формуле (88) в книге на стр. 11, где , A = X X и b = - 2 X y . Производная дается в формуле (89):x=βA=XXb=2Xy

fx=(A+A)x+b

так

β(yXβ)(yXβ)=(XX+(XX))β2Xy

Теперь, поскольку мы получаем желаемое решение:(XX)=XX

XXβ=Xy
mpiktas
источник
+1 mpiktas: Ваше решение более изобретательно, чем мое, и я думаю, что его следует использовать в более сложных практических ситуациях.
Октябрь
1
@окрам, спасибо. Я бы не назвал это гениальным, это стандартное применение существующих формул. Вам просто нужно знать формулы :)
mpiktas
8

Вот методика минимизации суммы квадратов в регрессии, которая на самом деле имеет применение к более общим настройкам и которую я считаю полезной.

Попробуем вообще избежать векторно-матричного исчисления.

Предположим, что мы заинтересованы в минимизации Где уR п , XR п × р и & beta ; R р . Для простоты будем считать, что p n и r a n k ( X ) = p .

Езнак равно(Y-Иксβ)T(Y-Иксβ)знак равно| |Y-Иксβ| |22,
YрNИксрN×пβрппNрaNК(Икс)знак равноп

Для любого & beta ; ∈ R р , получим Е = у - Х & beta ; + Х & beta ; - Х & beta ; | | 2 2 = | | у - Х & beta ; | | 2 2 + | | Х ( & beta ; - & beta ; ) | | 2 2 - 2 ( β - β ) Т Х Т ( уβ^рп

E=yXβ^+Xβ^Xβ22=yXβ^22+X(ββ^)222(ββ^)TXT(yXβ^).

β^ βminβEyXβ^22

(ββ^)TXT(yXβ^)=0β тогда и только тогда , когдаИксT(Y-Иксβ^)знак равно0 и это последнее уравнение верно, если и только если ИксTИксβ^знак равноИксTY, ТакЕ сводится к минимуму, принимая β^знак равно(ИксTИкс)-1ИксTY,


Хотя это может показаться «уловкой», позволяющей избежать исчисления, на самом деле оно имеет более широкое применение и в игре присутствует интересная геометрия.

Один пример, где этот метод делает вывод намного проще, чем любой подход матрично-векторного исчисления, - это когда мы обобщаем на случай матрицы. ПозволятьYрN×п, ИксрN×Q а также ВрQ×п, Предположим, мы хотим минимизировать

Езнак равноTр((Y-ИксВ)Σ-1(Y-ИксВ)T)
по всей матрице Впараметров. ВотΣ ковариационная матрица

Совершенно аналогичный подход к вышесказанному быстро устанавливает, что минимум Е достигается путем принятия

В^знак равно(ИксTИкс)-1ИксTY,
То есть в настройке регрессии, где ответом является вектор с ковариациейΣ и наблюдения являются независимыми, то оценка OLS достигается путем п отдельные линейные регрессии на составляющие ответа.
кардинальный
источник
К счастью, правила форума позволяют добавлять +1 к каждому ответу. Спасибо за образование, ребята!
DWin
@DWin, ты хотел разместить это под комментариями к вопросу?
кардинал
Я полагаю, что мог бы иметь. Я последовательно прошел через вопрос, а затем все ответы (после того как обработка MathML перестала дергаться) и нашел каждый из ответов информативным. Я просто оставил свой комментарий на вашем, потому что это было то место, где я перестал читать.
DWin
1
@DWin, yes, the rendering is a bit funky. I thought you might have intended the comment for another post since this one has no votes (up or down) and so the comment seemed to be out of place. Cheers.
cardinal
1
@cardinal +1, useful trick. This question turned out to be a pretty good reference.
mpiktas
6

One way which may help you understand is to not use matrix algebra, and differentiate with each respect to each component, and then "store" the results in a column vector. So we have:

βki=1N(Yij=1pXijβj)2=0

Now you have p of these equations, one for each beta. This is a simple application of the chain rule:

i=1N2(Yij=1pXijβj)1(βk[Yij=1pXijβj])=0
2i=1NXik(Yij=1pXijβj)=0

Now we can re-write the sum inside the bracket as j=1pXijβj=xiTβ So you get:

i=1NXikYii=1NXikxiTβ=0

Now we have p of these equations, and we will "stack them" in a column vector. Notice how Xik is the only term which depends on k, so we can stack this into the vector xi and we get:

i=1NxiYi=i=1NxixiTβ

Now we can take the beta outside the sum (but must stay on RHS of sum), and then take the invervse:

(i=1NxixiT)1i=1NxiYi=β
probabilityislogic
источник