Интуитивное объяснение

18

Если имеет полный ранг, существует обратное к и мы получаем оценку наименьших квадратов: иХ Т Х β = ( Х Т Х ) - 1 х YXXTX

β^=(XTX)1XY
Var(β^)=σ2(XTX)1

Как мы можем интуитивно объяснить в формуле дисперсии? Техника деривации для меня понятна.(XTX)1

Даниил Ефимов
источник
3
Вы можете добавить примечание , чтобы указать, что формула вы заявили , для ковариационной матрицы р - предполагая , что β оценивается с помощью МНК - это правильно , только если условия Гаусса-Маркова теоремы удовлетворяется и, в частности, только в том случае, если матрица дисперсии-ковариации членов ошибки задана как σ 2 I n , где I n - единичная матрица n × n, а n - количество строк в XY ). Формула вы предоставили это не верно для более общего случая несферических ошибок.β^β^σ2InInn×nnXY
Mico

Ответы:

13

Рассмотрим простую регрессию без постоянного члена, и где отдельный регрессор центрируется на среднем значении выборки. Тогда XX является ( n раз) его выборочной дисперсией, а (XX)1 его рециркальным. Таким образом, чем выше дисперсия = изменчивость в регрессоре, тем ниже дисперсия оценки коэффициента: чем больше изменчивости в объясняющей переменной, тем точнее мы можем оценить неизвестный коэффициент.

Почему? Поскольку чем больше регрессор, тем больше информации он содержит. Когда регрессоров много, это обобщается на обратную их дисперсионно-ковариационную матрицу, которая также учитывает ко-изменчивость регрессоров. В крайнем случае, когда является диагональю, тогда точность для каждого оцененного коэффициента зависит только от дисперсии / изменчивости ассоциированного регрессора (учитывая дисперсию члена ошибки).XX

Алекос Пападопулос
источник
Не могли бы вы связать этот аргумент с тем фактом, что обратная матрица дисперсии-ковариации дает частичную корреляцию ?
Гейзенберг
5

Простой способ просмотра заключается в качестве матричного (многомерного) аналога σ 2σ2(XTX)1 , который представляет собой дисперсию коэффициента наклона в простой МНК регрессии. Можно даже получитьσ2σ2i=1n(XiX¯)2 для этой дисперсиипомощью ommitting перехвата в модели, т.е. путем выполнения регрессии через начало координат.σ2i=1nXi2

Из любой из этих формул можно видеть, что большая изменчивость предикторной переменной в общем случае приведет к более точной оценке ее коэффициента. Эту идею часто используют при планировании экспериментов, когда, выбирая значения для (неслучайных) предикторов, стараются сделать детерминант как можно большим, причем детерминант является мерой изменчивости.(XTX)

JohnK
источник
2

Помогает ли линейное преобразование гауссовой случайной величины? Используя правило, что если , то A x + b N ( A μ + b , A T Σ A ) .xN(μ,Σ)Ax+b N(Aμ+b,ATΣA)

Предполагая, что является базовой моделью и ϵ N ( 0 , σ 2 ) .Y=Xβ+ϵϵN(0,σ2)

YN(Xβ,σ2)XTYN(XTXβ,Xσ2XT)(XTX)1XTYN[β,(XTX)1σ2]

Таким образом , просто сложная матрица масштабирования , которая преобразовывает распределение Y .(XTX)1XTY

Надеюсь, это было полезно.

kedarps
источник
Ничто в выводе оценки OLS и его дисперсии не требует нормальности слагаемых ошибок. Все, что требуется, это и E ( ε ε T ) = σ 2 I n . (Конечно, нормальность это требуется , чтобы показать , что МНК достигает Крамера-Рао нижняя граница, но это не то , что проводка в OP составляет около, правда?)E(ε)=0E(εεT)=σ2In
Мико
2

Я возьму другой подход к развитию интуиции, которая лежит в основе формулы . При разработке интуиции для модели множественной регрессии полезно рассмотреть модель двумерной линейной регрессии,а именно. ,yi=α+βxi+εi,Varβ^=σ2(XX)1α + β x i часто называют детерминированным вкладом в y i , а ε i называют стохастическим вкладом. Выраженный в терминах отклонений от выборочных средних ( ˉ х , ˉ у ) , эта модель также может быть записанавиде ( у я - ˉ у ) = & beta ; ( х я - ° х ) + ( е

yi=α+βxi+εi,i=1,,n.
α+βxiyiεi(x¯,y¯)
(yiy¯)=β(xix¯)+(εiε¯),i=1,,n.

Для того, чтобы помочь развить интуицию, мы будем считать , что простейшие предположения Гаусса-Маркова удовлетворены: неслучайная, Σ п я = 1 ( х я - ˉ х ) 2 > 0 для всех п , и ε я ~ н.о.р. ( 0 , σ 2 ) для всех i = 1 , , n . Как вы уже хорошо знаете, эти условия гарантируют, что Варxii=1n(xix¯)2>0nεiiid(0,σ2)i=1,,n где вар

Varβ^=1nσ2(Varx)1,
- выборочная дисперсия х . На словах эта формула делает три утверждения: «Дисперсия р обратно пропорциональна размеру выборки п , он прямо пропорционален дисперсии е , и он обратно пропорционален дисперсии хVarxxβ^nεx

Почему удвоение размера выборки, при прочих равных условиях , потому что дисперсия р будет разрезать пополам? Этот результат тесно связан с допущением iid, примененным к ε : поскольку предполагается, что отдельные ошибки являются iid, каждое наблюдение должно рассматриваться как предварительное как информативное. И удвоение количества наблюдений удваивает количество информации о параметрах, которые описывают (предполагаемую линейную) связь между x и y . Наличие вдвое больше информации сокращает неопределенность параметров в два раза. Точно так же должно быть легко развить интуицию относительно того, почему удвоениеβ^εxy также удваивает дисперсию р .σ2β^

Обратим, то, на ваш главный вопрос, который о развитии интуиции для утверждения , что дисперсия р является обратно пропорциональной к дисперсии х . Чтобы формализовать понятия, давайте рассмотрим две отдельные модели двумерной линейной регрессии, которые теперь называются Модель ( 1 ) и Модель ( 2 ) . Предположим, что обе модели удовлетворяют предположениям о простейшем виде теоремы Гаусса-Маркова и что модели имеют одинаковые значения α , β , n и σ 2 . При этих предположениях легко показать, что Eβ^x(1)(2)αβnσ2Eβ^(1)=Eβ^(2)=βx¯(1)=x¯(2)=x¯Varx(1)Varx(2). Without loss of generality, let us assume that Varx(1)>Varx(2). Which estimator of β^ will have the smaller variance? Put differently, will β^(1) or β^(2) be closer, on average, to β? From the earlier discussion, we have Varβ^(k)=1nσ2/Varx(k)) for k=1,2. Because Varx(1)>Varx(2) by assumption, it follows that Varβ^(1)<Varβ^(2). What, then, is the intuition behind this result?

Because by assumption Varx(1)>Varx(2), on average each xi(1) will be farther away from x¯ than is the case, on average, for xi(2). Let us denote the expected average absolute difference between xi and x¯ by dx. The assumption that Varx(1)>Varx(2) implies that dx(1)>dx(2). The bivariate linear regression model, expressed in deviations from means, states that dy=βdx(1) for Model (1) and dy=βdx(2) for Model (2). If β0, this means that the deterministic component of Model (1), βdx(1), has a greater influence on dy than does the deterministic component of Model (2), βdx(2). Recall that the both models are assumed to satisfy the Gauss-Markov assumptions, that the error variances are the same in both models, and that β(1)=β(2)=β. Since Model (1) imparts more information about the contribution of the deterministic component of y than does Model (2), it follows that the precision with which the deterministic contribution can be estimated is greater for Model (1) than is the case for Model (2). The converse of greater precision is a lower variance of the point estimate of β.

It is reasonably straightforward to generalize the intuition obtained from studying the simple regression model to the general multiple linear regression model. The main complication is that instead of comparing scalar variances, it is necessary to compare the "size" of variance-covariance matrices. Having a good working knowledge of determinants, traces and eigenvalues of real symmetric matrices comes in very handy at this point :-)

Mico
источник
1

Say we have n observations (or sample size) and p parameters.

The covariance matrix Var(β^) of the estimated parameters β^1,β^2 etc. is a representation of the accuracy of the estimated parameters.

If in an ideal world the data could be perfectly described by the model, then the noise will be σ2=0. Now, the diagonal entries of Var(β^) correspond to Var(β1^),Var(β2^) etc. The derived formula for the variance agrees with the intuition that if the noise is lower, the estimates will be more accurate.

In addition, as the number of measurements gets larger, the variance of the estimated parameters will decrease. So, overall the absolute value of the entries of XTX will be higher, as the number of columns of XT is n and the number of rows of X is n, and each entry of XTX is a sum of n product pairs. The absolute value of the entries of the inverse (XTX)1 will be lower.

Hence, even if there is a lot of noise, we can still reach good estimates βi^ of the parameters if we increase the sample size n.

I hope this helps.

Reference: Section 7.3 on Least squares: Cosentino, Carlo, and Declan Bates. Feedback control in systems biology. Crc Press, 2011.

Dilly Minch
источник
1

Это основано на ответе @Alecos Papadopuolos.

Напомним, что результат регрессии наименьших квадратов не зависит от единиц измерения ваших переменных. Предположим, что ваша X-переменная является измерением длины в дюймах. Тогда изменение масштаба X, скажем, умножением на 2,54, чтобы изменить единицу измерения на сантиметры, не оказывает существенного влияния на вещи. Если вы переустановите модель, новая регрессионная оценка будет старой оценкой, деленной на 2,54.

Икс'Икс Матрица представляет собой дисперсию X и, следовательно, отражает шкалу измерения X. Если вы измените шкалу, вы должны отразить это в своей оценке β, И это делается путем умножения на обратную частьИкс'Икс,

Hong Ooi
источник