Как термин ошибки регрессии может быть когда-либо соотнесен с объясняющими переменными?

22

В первом предложении этой вики- страницы утверждается, что «В эконометрике возникает проблема эндогенности, когда объясняющая переменная соотносится с ошибочным термином. 1 »

Мой вопрос в том, как это может произойти? Разве бета-версия регрессии не выбрана такой, что член ошибки ортогонален пространству столбцов матрицы проекта?

обитатель севера
источник
9
Бета-регрессия выбрана так, чтобы остаток был ортогональным пространству столбцов матрицы проекта. И это может дать ужасную оценку истинной бета-версии, если член ошибки не ортогонален пространству столбцов матрицы проекта! (т.е. если ваша модель не удовлетворяет предположениям, необходимым для последовательной оценки коэффициентов по регрессии).
Мэтью Ганн
3
Ортогональность члена ошибки и пространства столбцов матрицы проекта не является свойством вашего метода оценки (например, регрессия обычных наименьших квадратов), это свойство модели (например, yi=a+bxi+ϵi ).
Мэтью Ганн
Я думаю, что ваше редактирование должно быть новым вопросом, потому что вы, кажется, существенно изменили то, что вы просите. Вы всегда можете вернуться к этому. (Я думаю , что вам нужно слово лучше, тоже - когда ты пишешь «что бы эффект будет» , то я не ясно , о влиянии того , что ?) Обратите внимание , что задать новый вопрос в целом производит больше внимания , которое было бы выгодно для вас за редактирование существующего.
Серебряная

Ответы:

28

Вы объединяете два типа термина «ошибка». В Википедии на самом деле есть статья, посвященная этому различию между ошибками и остатками .

В МНК регрессии, остатки (ваши оценки погрешности или термина ε^ действительно гарантированно быть коррелируют с предикторов, предполагая , что регресс содержит свободный член.

Но «истинные» ошибки ε вполне могут коррелировать с ними, и это то, что считается эндогенностью.

Для простоты рассмотрим модель регрессии (вы можете увидеть, что это описывается как базовый « процесс генерации данных » или «DGP», теоретическая модель, которую мы предполагаем для генерации значения ):y

yi=β1+β2xi+εi

В принципе, нет причин, почему не может быть соотнесен с ε в нашей модели, однако мы бы предпочли, чтобы таким образом не нарушались стандартные допущения OLS. Например, может случиться так, что у зависит от другой переменной, которая была опущена в нашей модели, и это было включено в термин возмущения ( ε - это то, где мы объединяем все вещи, кроме x, которые влияют на y ). Если эта пропущенная переменная также коррелирует с x , то ε , в свою очередь, будет коррелироваться с x, и мы имеем эндогенность (в частности, смещение опущенной переменной ).xεyεxyxεx

Когда вы оцениваете свою регрессионную модель по имеющимся данным, мы получаем

yi=β^1+β^2xi+ε^i

Из-за способа МНК работы *, остатки ε будет коррелируют с х . Но это не значит , что мы избежали эндогенность - это просто означает , что мы не можем обнаружить его путем анализа корреляции между е и х , что будет (до численной ошибки) равна нулю. И поскольку допущения OLS были нарушены, нам больше не гарантированы хорошие свойства, такие как беспристрастность, нам так нравится OLS. Наша оценка β 2 будет смещена.ε^xε^xβ^2


Тот фактчто ε некоррелирован с й вытекает непосредственно из «нормальных уравнений»мы используемчтобы выбрать наилучшие оценки коэффициентов.()ε^x

Если вы не привыкли к настройке матрицы, и я придерживаюсь двумерной модели, использованной в моем примере выше, то сумма квадратов невязок равна и найти оптимальное б 1 = & beta ; 1 и б 2 =S(b1,b2)=i=1nεi2=i=1n(yib1b2xi)2b1=β^1которые минимизируют это, мы находим нормальные уравнения, во-первых, условие первого порядка для предполагаемого пересечения:b2=β^2

Sb1=i=1n2(yib1b2xi)=2i=1nε^i=0

который показывает , что сумма (и , следовательно , среднее) из остатков равна нулю, поэтому формула для ковариации между е и любой переменной х сводится к 1ε^x. Мы видим, что это ноль, учитывая условие первого порядка для предполагаемого наклона, который заключается в том, что1n1i=1nxiε^i

Sb2=i=1n2xi(yib1b2xi)=2i=1nxiε^i=0

Если вы привыкли работать с матрицами, мы можем обобщить это на множественную регрессию, определив ; условие первого порядка , чтобы минимизировать S ( б ) при оптимальной б = β является:S(b)=εε=(yXb)(yXb)S(b)b=β^

dSdb(β^)=ddb(yybXyyXb+bXXb)|b=β^=2Xy+2XXβ^=2X(yXβ^)=2Xε^=0

Это подразумевает каждую строку , и , следовательно , каждый столбец X , ортогонально к ε . Тогда , если матрица плана X имеет столбец из единиц (что происходит , если ваша модель имеет свободный член), мы должны иметь Е п я = 1 ε я = 0 , так что остатки имеют нулевую сумму и нулевое среднее значение. Ковариация между е и любой переменной х снова 1XXε^Xi=1nε^i=0ε^x1n1i=1nxiε^i and for any variable x included in our model we know this sum is zero, because ε^ is orthogonal to every column of the design matrix. Hence there is zero covariance, and zero correlation, between ε^ and any predictor variable x.

Если вы предпочитаете более геометрический взгляд на вещи , наше желание , что у лежит как можно ближе к у в пифагорейской виде пути , и тот факт , что у ограничена в пространстве столбцов матрицы плана X , диктуют у должна быть ортогональная проекция наблюдаемого у на это пространство столбца. Следовательно, вектор остатков ε = у - у ортогонален каждого столбец X , в том числе вектора единиц 1 пy^y y^Xy^yε^=yy^X1nесли термин перехвата включен в модель. Как и прежде, это подразумевает, что сумма остатков равна нулю, откуда ортогональность остаточного вектора с другими столбцами гарантирует, что он не связан с каждым из этих предикторов.X

Vectors in subject space of multiple regression

Но ничто из того, что мы здесь сделали, ничего не говорит об истинных ошибках . Предполагая , что существует термин перехватывает в нашей модели, остатки ε только коррелирует с й как математическим следствием того , каким образом мы выбрали для оценки коэффициентов регрессии р . Путь мы выбрали нашу & beta ; влияет на наши прогнозные значения у и , следовательно , наши остатки ε = у - у . Если мы выберем β с помощью МНК, мы должны решить нормальные уравнения и их соблюдение , что наши оцененные невязкиεε^xβ^β^y^ε^=yy^β^ε^ are uncorrelated with x. Our choice of β^ affects y^ but not E(y) and hence imposes no conditions on the true errors ε=yE(y). It would be a mistake to think that ε^ has somehow "inherited" its uncorrelatedness with x from the OLS assumption that ε should be uncorrelated with x. The uncorrelatedness arises from the normal equations.

Silverfish
источник
1
does your yi=β1+β2xi+εi mean regression using population data? Or what does it mean precisely?
denizen of the north
@user1559897 Yes, some textbooks will call this the "population regression line" or PRL. It's the underlying theoretical model for the population; you may also see this called the "data generating process" in some sources. (I tend to be a bit careful about saying it is the "regression on the population"... if you have a finite population, e.g. 50 states of the USA, that you perform the regression on, then this isn't quite true. If you are actually running a population on some data in your software, you are really talking about the estimated version of the regression, with the "hats")
Silverfish
I think i see what you are saying. If i understand you correctly, the error term in the model yi=β1+β2xi+εi could have non-zero expectation as well because it is a theoretical generating process, not a ols regression.
denizen of the north
This is a great answer from statistical inference perspective. What do you think the effect would be if prediction accuracy is the primary concern? See the edit of the post.
denizen of the north
16

Simple example:

  • Let xi,1 be the number of burgers I buy on visit i
  • Let xi,2 be the number of buns I buy.
  • Let b1 be the price of a burger
  • Let b2 be the price of a bun.
  • Independent of my burger and bun purchases, let me spend a random amount a+ϵi where a is a scalar and ϵi is a mean zero random variable. We have E[ϵi|X]=0.
  • Let yi be my spending on a trip to the grocery store.

The data generating process is:

yi=a+b1xi,1+b2xi,2+ϵi

If we ran that regression, we would get estimates a^, b^1, and b^2, and with enough data, they would converge on a, b1, and b2 respectively.

(Technical note: We need a little randomness so we don't buy exactly one bun for each burger we buy at every visit to the grocery store. If we did this, x1 and x2 would be collinear.)

An example of omitted variable bias:

Now let's consider the model:

yi=a+b1xi,1+ui

Observe that ui=b2xi,2+ϵi. Hence

Cov(x1,u)=Cov(x1,b2x2+ϵ)=b2Cov(x1,x2)+Cov(x1,ϵ)=b2Cov(x1,x2)

Is this zero? Almost certainly not! The purchase of burgers x1 and the purchase of buns x2 are almost certainly correlated! Hence u and x1 are correlated!

What happens if you tried to run the regression?

If you tried to run:

yi=a^+b^1xi,1+u^i

Your estimate b^1 would almost certainly be a poor estimate of b1 because the OLS regression estimates a^,b^,u^ would be constructed so that u^ and x1 are uncorrelated in your sample. But the actual u is correlated with x1 in the population!

What would happen in practice if you did this? Your estimate b^1 of the price of burgers would ALSO pickup the price of buns. Let's say every time you bought a $1 burger you tended to buy a $0.50 bun (but not all the time). Your estimate of the price of burgers might be $1.40. You'd be picking up the burger channel and the bun channel in your estimate of the burger price.

Matthew Gunn
источник
I like your burger bun example. You explained the problem from the perspective of statistical inference, ie inferring the effect of burger on price. Just wondering what the effect would be if all I care about is prediction, i.e prediction MSE on a test dataset? The intuition is that it is not going to be as good, but is there any theory to make it more precise? (this introduced more bias, but less variance, so the overall effect is not apparent to me. )
denizen of the north
1
@user1559897 If you just care about predicting spending, then predicting spending using the number of burgers and estimating b^1 as around $1.40 might work pretty well. If you have enough data, using the number of burgers and buns would undoubtedly work better. In short samples, L1 regularlization (LASSO) might send one of the coefficients b1 or b2 to zero. I think you're correctly recognizing that what you're doing in regression is estimating a conditional expectation function. My point is for that that function to capture causal effects, you need additional assumptions.
Matthew Gunn
3

Предположим, что мы строим регрессию веса животного на его рост. Ясно, что вес дельфина будет измеряться по-разному (в другой процедуре и с использованием разных инструментов) от веса слона или змеи. Это означает, что ошибки модели будут зависеть от высоты, то есть объясняющей переменной. Они могут зависеть по-разному. Например, может быть, мы склонны немного переоценивать вес слонов и немного недооценивать змеи и т. Д.

Итак, здесь мы установили, что легко оказаться в ситуации, когда ошибки соотносятся с объясняющими переменными. Теперь, если мы будем игнорировать это и перейти к регрессии , как обычно, мы заметим , что регрессионные остатки являются не коррелируют с дизайном матрицы. Это связано с тем, что по своей конструкции регрессия заставляет невязки быть некоррелированными. Отметим также , что остатки являются не эти ошибки , они по оценкамошибок. Таким образом, независимо от того, коррелируют ли сами ошибки или нет с независимыми переменными, оценки ошибок (невязки) не будут коррелироваться при построении решения уравнения регрессии.

Аксакал
источник