Если имеет полный ранг, существует обратное к и мы получаем оценку наименьших квадратов: иХ Т Х β = ( Х Т Х ) - 1 х Y
Как мы можем интуитивно объяснить в формуле дисперсии? Техника деривации для меня понятна.
regression
variance
least-squares
Даниил Ефимов
источник
источник
Ответы:
Рассмотрим простую регрессию без постоянного члена, и где отдельный регрессор центрируется на среднем значении выборки. ТогдаИкс'Икс является ( N раз) его выборочной дисперсией, а ( X'Икс)- 1 его рециркальным. Таким образом, чем выше дисперсия = изменчивость в регрессоре, тем ниже дисперсия оценки коэффициента: чем больше изменчивости в объясняющей переменной, тем точнее мы можем оценить неизвестный коэффициент.
Почему? Поскольку чем больше регрессор, тем больше информации он содержит. Когда регрессоров много, это обобщается на обратную их дисперсионно-ковариационную матрицу, которая также учитывает ко-изменчивость регрессоров. В крайнем случае, когда является диагональю, тогда точность для каждого оцененного коэффициента зависит только от дисперсии / изменчивости ассоциированного регрессора (учитывая дисперсию члена ошибки).X′X
источник
Простой способ просмотра заключается в качестве матричного (многомерного) аналога σ 2σ2(XTX)−1 , который представляет собой дисперсию коэффициента наклона в простой МНК регрессии. Можно даже получитьσ2σ2∑ni=1(Xi−X¯)2 для этой дисперсиипомощью ommitting перехвата в модели, т.е. путем выполнения регрессии через начало координат.σ2∑ni=1X2i
Из любой из этих формул можно видеть, что большая изменчивость предикторной переменной в общем случае приведет к более точной оценке ее коэффициента. Эту идею часто используют при планировании экспериментов, когда, выбирая значения для (неслучайных) предикторов, стараются сделать детерминант как можно большим, причем детерминант является мерой изменчивости.(XTX)
источник
Помогает ли линейное преобразование гауссовой случайной величины? Используя правило, что если , то A x + b ∼ N ( A μ + b , A T Σ A ) .x∼N(μ,Σ) Ax+b ∼N(Aμ+b,ATΣA)
Предполагая, что является базовой моделью и ϵ ∼ N ( 0 , σ 2 ) .Y=Xβ+ϵ ϵ∼N(0,σ2)
Таким образом , просто сложная матрица масштабирования , которая преобразовывает распределение Y .(XTX)−1XT Y
Надеюсь, это было полезно.
источник
Я возьму другой подход к развитию интуиции, которая лежит в основе формулы . При разработке интуиции для модели множественной регрессии полезно рассмотреть модель двумерной линейной регрессии,а именно. ,yi=α+βxi+εi,Varβ^=σ2(X′X)−1 α + β x i часто называют детерминированным вкладом в y i , а ε i называют стохастическим вкладом. Выраженный в терминах отклонений от выборочных средних ( ˉ х , ˉ у ) , эта модель также может быть записанавиде ( у я - ˉ у ) = & beta ; ( х я - ° х ) + ( е
Для того, чтобы помочь развить интуицию, мы будем считать , что простейшие предположения Гаусса-Маркова удовлетворены: неслучайная, Σ п я = 1 ( х я - ˉ х ) 2 > 0 для всех п , и ε я ~ н.о.р. ( 0 , σ 2 ) для всех i = 1 , … , n . Как вы уже хорошо знаете, эти условия гарантируют, что Варxi ∑ni=1(xi−x¯)2>0 n εi∼iid(0,σ2) i=1,…,n где вар
Почему удвоение размера выборки, при прочих равных условиях , потому что дисперсия р будет разрезать пополам? Этот результат тесно связан с допущением iid, примененным к ε : поскольку предполагается, что отдельные ошибки являются iid, каждое наблюдение должно рассматриваться как предварительное как информативное. И удвоение количества наблюдений удваивает количество информации о параметрах, которые описывают (предполагаемую линейную) связь между x и y . Наличие вдвое больше информации сокращает неопределенность параметров в два раза. Точно так же должно быть легко развить интуицию относительно того, почему удвоениеβ^ ε x y также удваивает дисперсию р .σ2 β^
Обратим, то, на ваш главный вопрос, который о развитии интуиции для утверждения , что дисперсия р является обратно пропорциональной к дисперсии х . Чтобы формализовать понятия, давайте рассмотрим две отдельные модели двумерной линейной регрессии, которые теперь называются Модель ( 1 ) и Модель ( 2 ) . Предположим, что обе модели удовлетворяют предположениям о простейшем виде теоремы Гаусса-Маркова и что модели имеют одинаковые значения α , β , n и σ 2 . При этих предположениях легко показать, что Eβ^ x (1) (2) α β n σ2 Eβ^(1)=Eβ^(2)=β x¯(1)=x¯(2)=x¯ Varx(1)≠Varx(2) . Without loss of generality, let us assume that Varx(1)>Varx(2) . Which estimator of β^ will have the smaller variance? Put differently, will β^(1) or β^(2) be closer, on average, to β ?
From the earlier discussion, we have Varβ^(k)=1nσ2/Varx(k)) for k=1,2 . Because Varx(1)>Varx(2) by assumption, it follows that Varβ^(1)<Varβ^(2) . What, then, is the intuition behind this result?
Because by assumptionVarx(1)>Varx(2) , on average each x(1)i will be farther away from x¯ than is the case, on average, for x(2)i . Let us denote the expected average absolute difference between xi and x¯ by dx . The assumption that Varx(1)>Varx(2) implies that d(1)x>d(2)x . The bivariate linear regression model, expressed in deviations from means, states that dy=βd(1)x for Model (1) and dy=βd(2)x for Model (2) . If β≠0 , this means that the deterministic component of Model (1) , βd(1)x , has a greater influence on dy than does the deterministic component of Model (2) , βd(2)x . Recall that the both models are assumed to satisfy the Gauss-Markov assumptions, that the error variances are the same in both models, and that β(1)=β(2)=β . Since Model (1) imparts more information about the contribution of the deterministic component of y than does Model (2) , it follows that the precision with which the deterministic contribution can be estimated is greater for Model (1) than is the case for Model (2) . The converse of greater precision is a lower variance of the point estimate of β .
It is reasonably straightforward to generalize the intuition obtained from studying the simple regression model to the general multiple linear regression model. The main complication is that instead of comparing scalar variances, it is necessary to compare the "size" of variance-covariance matrices. Having a good working knowledge of determinants, traces and eigenvalues of real symmetric matrices comes in very handy at this point :-)
источник
Say we haven observations (or sample size) and p parameters.
The covariance matrixVar(β^) of the estimated parameters β^1,β^2 etc. is a representation of the accuracy of the estimated parameters.
If in an ideal world the data could be perfectly described by the model, then the noise will beσ2=0 . Now, the diagonal entries of Var(β^) correspond to Var(β1^),Var(β2^) etc.
The derived formula for the variance agrees with the intuition that if the noise is lower, the estimates will be more accurate.
In addition, as the number of measurements gets larger, the variance of the estimated parameters will decrease. So, overall the absolute value of the entries ofXTX will be higher, as the number of columns of XT is n and the number of rows of X is n , and each entry of XTX is a sum of n product pairs. The absolute value of the entries of the inverse (XTX)−1 will be lower.
Hence, even if there is a lot of noise, we can still reach good estimatesβi^ of the parameters if we increase the sample size n .
I hope this helps.
Reference: Section 7.3 on Least squares: Cosentino, Carlo, and Declan Bates. Feedback control in systems biology. Crc Press, 2011.
источник
Это основано на ответе @Alecos Papadopuolos.
Напомним, что результат регрессии наименьших квадратов не зависит от единиц измерения ваших переменных. Предположим, что ваша X-переменная является измерением длины в дюймах. Тогда изменение масштаба X, скажем, умножением на 2,54, чтобы изменить единицу измерения на сантиметры, не оказывает существенного влияния на вещи. Если вы переустановите модель, новая регрессионная оценка будет старой оценкой, деленной на 2,54.
источник