Почему остатки в линейной регрессии всегда суммируются до нуля, когда включен перехват?

14

Я беру курс по моделям регрессии, и одно из свойств, предусмотренных для линейной регрессии, заключается в том, что при включении перехвата остатки всегда суммируются до нуля.

Кто-нибудь может дать хорошее объяснение, почему это так?

regression residuals dts86
источник

3

Вы могли бы сначала подумать о тесно связанном, но более простом вопросе о том, почему в одномерной выборке остатки, которые вы получаете, вычитая среднее значение выборки из каждого значения, также суммируют до 0. (Попробуйте, если можете, следовать алгебре.)

Glen_b - Восстановите Монику

3

Как только вы осознаете, что «сумма к нулю» означает «ортогональный одной из объясняющих переменных», ответ становится геометрически очевидным.

whuber

18

Это следует непосредственно из нормальных уравнений, то есть уравнений, которые решает оценщик OLS,

X^{'} \underset{e}{\underset{⏟}{(y - X b)}} = 0

$\mathbf{X}^{\prime} \underbrace{\left( \mathbf{y} - \mathbf{X} \mathbf{b} \right)}_{\mathbf{e}} = 0$

Вектор внутри скобок - это, конечно, остаточный вектор или проекция на ортогональное дополнение пространства столбцов , если вам нравится линейная алгебра. Теперь включение вектора единиц в матрицу , которая, кстати, не обязательно должна быть в первом столбце, как это обычно делается, приводит к $\mathbf{y}$ $X$ $\mathbf{X}$

1^{'} e = 0 ⟹ \sum_{i = 1}^{n} e_{i} = 0

$\mathbf{1}^{\prime} \mathbf{e} = 0 \implies \sum_{i=1}^n e_i = 0$

В задаче с двумя переменными это еще проще увидеть, поскольку минимизация суммы квадратов невязок приводит нас к

\sum_{i = 1}^{n} (y_{i} - a - b x_{i}) = 0

$\sum_{i=1}^n \left(y_i - a - b x_i \right) = 0$

когда мы берем производную по пересечению. Отсюда мы приступаем к получению знакомой оценки

a = \bar{y} - b \bar{x}

$a = \bar{y} - b \bar{x}$

где снова мы видим, что построение наших оценок накладывает это условие.

JohnK
источник

17

В случае, если вы ищете довольно интуитивное объяснение.

В некотором смысле модель линейной регрессии - не что иное, как причудливое среднее. Чтобы найти среднее арифметическое по некоторым значениям , мы находим значение, которое является мерой центральности в том смысле, что сумма всех отклонений (где каждое отклонение определяется как ) справа от среднего значения равны сумме всех отклонений слева от этого среднего. Нет никакой внутренней причины, почему эта мера хороша, не говоря уже о лучшем способе описания среднего значения выборки, но она, безусловно, интуитивно понятна и практична. Важным моментом является то, что, определяя таким образом среднее арифметическое, из этого обязательно следует, что, как только мы построим среднее арифметическое, все отклонения от этого среднего значения должны быть равны нулю по определению! $\bar{x}$ $x_1, x_2, \dots, x_n$ $u_i = x_i - \bar{x}$

В линейной регрессии это ничем не отличается. Мы подходите линии таким образом, чтобы сумма всех различий между нашими подобранными значениями (которые находятся на линии регрессии) и фактических значений, которые выше линии в точности равна сумме всех различий между линией регрессии и все значения ниже линия. Опять же, нет никакой внутренней причины, почему это лучший способ построить подгонку, но она проста и интуитивно привлекательна. Как и в случае среднего арифметического: при построении подобранных значений таким образом, по построению обязательно следует, что все отклонения от этой линии должны суммироваться до нуля, иначе это просто не будет повторением OLS.

Мануэль Р
источник

2

+1 за простой, простой и интуитивно понятный ответ!

Отличное объяснение, но я не уверен: «Опять же, нет никакой внутренней причины, почему это лучший способ построить подгонку, но она проста и интуитивно привлекательна». это точно. Из теоремы Гаусса-Маркова хорошо известно, что оценки МНК являются СИНИМИ: наилучшие (с минимальной дисперсией) линейные несмещенные оценки (при условии, что предположения выполнены). Часто наши интуитивные «чувства» по поводу того, что является привлекательным / разумным, также подтверждаются математически, как в данном случае.

Мэг

3

Когда перехват включен в множественную линейную регрессию, В регрессии наименьших квадратов сумма квадратов ошибок сведена к минимуму. Возьмите частичное производная от SSE по отношению к и установка его в ноль.

{\hat{y}}_{i} = β_{0} + β_{1} x_{i, 1} + β_{2} x_{i, 2} + \dots + β_{p} x_{i, p}

$\hat{y}_i = \beta_0 + \beta_1x_{i,1} + \beta_2x_{i,2} +…+ \beta_px_{i,p}$

S S E = \sum_{i = 1}^{n} {(e_{i})}^{2} = \sum_{i = 1}^{n} {(y_{i} - \hat{y_{i}})}^{2} = \sum_{i = 1}^{n} {(y_{i} - β_{0} - β_{1} x_{i, 1} - β_{2} x_{i, 2} - \dots - β_{p} x_{i, p})}^{2}

$SSE=\displaystyle\sum\limits_{i=1}^n \left(e_i \right)^2= \sum_{i=1}^n\left(y_i - \hat{y_i} \right)^2= \sum_{i=1}^n\left(y_i -\beta_0- \beta_1x_{i,1}-\beta_2x_{i,2}-…- \beta_px_{i,p} \right)^2$

β_{0}

$\beta_0$

\frac{\partial S S E}{\partial β_{0}} = \sum_{i = 1}^{n} 2 {(y_{i} - β_{0} - β_{1} x_{i, 1} - β_{2} x_{i, 2} - \dots - β_{p} x_{i, p})}^{1} (- 1) = - 2 \sum_{i = 1}^{n} e_{i} = 0

$\frac{\partial{SSE}}{\partial{\beta_0}} = \sum_{i=1}^n 2\left(y_i -\beta_0- \beta_1x_{i,1}-\beta_2x_{i,2}-…- \beta_px_{i,p} \right)^1 (-1) =-2\displaystyle\sum\limits_{i=1}^ne_i=0$ Следовательно, остатки всегда суммируются до нуля, когда перехват включен в линейную регрессию.

DavidCruise
источник

1

Ключевое наблюдение состоит в том, что, поскольку модель имеет точку пересечения, , который является первым столбцом проектной матрицы , можно записать как где - вектор столбца со всеми нулями, кроме первого компонента. Также обратите внимание, что в матричной записи сумма остатков равна всего . $1$ $X$

1 = X e,

$1 = Xe,$

e

$e$

1^{T} (y - \hat{y})

$1^T(y - \hat{y})$

Следовательно,

\begin{aligned} 1^{T} (y - \hat{y}) = 1^{T} (I - H) y \\ = & e^{T} X^{T} (I - X (X^{T} X)^{- 1} X^{T}) y \\ = & e^{T} (X^{T} - X^{T} X (X^{T} X)^{- 1} X^{T}) y \\ = & e^{T} (X^{T} - X^{T}) y \\ = & 0. \end{aligned}

$\begin{align} & 1^T(y - \hat{y}) = 1^T(I - H)y \\ = & e^TX^T(I - X(X^TX)^{-1}X^T)y \\ = & e^T(X^T - X^TX(X^TX)^{-1}X^T)y \\ = & e^T(X^T - X^T)y \\ = & 0. \end{align}$

Zhanxiong
источник

0

Простой вывод с использованием матричной алгебры:

$\sum e$ можно записать как $1^Te$

потом

$1^Te = 1^T(M_x y)$ где - ортогональная матрица. Поскольку является симметричным, мы можем переставить так, чтобы $M_x$ $M_x$ $(M_x1)^Ty$

который равен нулю, если и ортогональны, что имеет место, если матрица регрессоров содержит (действительно, вектор ). $M_x$ $1$ $x$ $1$

Мино
источник

Я не думаю, что это правильно.

Майкл Р. Черник,

Если ты объяснишь почему, тогда я буду рад чему-то научиться

Мино

0

$e_i = y_i - [1, X] [a, b] = y_i - Xb - a = v_i - a$
$\frac{d}{da} \sum e_i^2 \propto \sum e_i\cdot 1 = \sum v_i - a = 0$ so $\hat{a} = \frac{1}{n}\sum v_i$
$\sum e_i = \sum_i v_i - a = \sum_i v_i - \frac{n}{n}\sum_i v_i = 0$

..

Hunaphu
источник

Почему остатки в линейной регрессии всегда суммируются до нуля, когда включен перехват?

Ответы: