Оценка

14

У меня есть теоретическая экономическая модель, которая заключается в следующем,

y = a + b_{1} x_{1} + b_{2} x_{2} + b_{3} x_{3} + u

$y = a + b_1x_1 + b_2x_2 + b_3x_3 + u$

Таким образом, теория говорит, что есть факторы , и для оценки . $x_1$ $x_2$ $x_3$ $y$

Теперь у меня есть реальные данные, и мне нужно оценить , , . Проблема состоит в том, что реальный набор данных содержит только данные для и ; нет данных для . Таким образом, модель, которую я могу подобрать на самом деле: $b_1$ $b_2$ $b_3$ $x_1$ $x_2$ $x_3$

y = a + b_{1} x_{1} + b_{2} x_{2} + u

$y = a + b_1x_1 + b_2x_2 + u$

Можно ли оценивать эту модель?
Потеряю ли я что-нибудь, оценивая это?
Если я оцениваю , , то куда термин ? $b_1$ $b_2$ $b_3x_3$
Это объясняется ошибкой члена ? $u$

И мы хотели бы предположить, что не коррелирует с и . $x_3$ $x_1$ $x_2$

regression multiple-regression endogeneity renathy
источник

Можете ли вы дать подробную информацию о вашем наборе данных, я имею в виду вашу зависимую переменную

и независимые переменные

и

?

y

$y$

x_{1}

$x_1$

x_{2}

$x_2$

Вара

Думайте об этом как о гипотетическом примере без конкретного набора данных ...

Ренати

20

Проблема, о которой вам нужно беспокоиться, называется эндогенностью . Более конкретно, это зависит от того , коррелирован ли в популяции с или . Если это так, то соответствующая s будет смещена. Это связано с тем, что методы регрессии OLS заставляют невязки быть некоррелированными с вашими ковариатами s. Тем не менее, ваши остатки состоят из некоторых неприводимой случайности, , и ненаблюдаемых (но соответствующие) переменные, , который по условию является $x_3$ $x_1$ $x_2$ $b_j$ $u_i$ $x_j$ $\varepsilon_i$ $x_3$ коррелирует с и / или . С другой стороны, если оба и нескоррелированные с в популяции, то их ы не будет смещен этим (они вполне могут быть смещены что - то еще, конечно). Один из способов, с помощью которого эконометрики пытаются решить эту проблему, - использование инструментальных переменных . $x_1$ $x_2$ $x_1$ $x_2$ $x_3$ $b$

Для большей ясности я написал быстрое моделирование в R, которое демонстрирует, что выборочное распределение несмещено / центрировано на истинном значении , когда оно не связано с . Однако во втором запуске обратите внимание, что не коррелирован с , но не с . Не случайно является непредвзятым, но является предвзятым. $b_2$ $\beta_2$ $x_3$ $x_3$ $x_1$ $x_2$ $b_1$ $b_2$

library(MASS)                          # you'll need this package below
N     = 100                            # this is how much data we'll use
beta0 = -71                            # these are the true values of the
beta1 = .84                            # parameters
beta2 = .64
beta3 = .34

############## uncorrelated version

b0VectU = vector(length=10000)         # these will store the parameter
b1VectU = vector(length=10000)         # estimates
b2VectU = vector(length=10000)
set.seed(7508)                         # this makes the simulation reproducible

for(i in 1:10000){                     # we'll do this 10k times
  x1 = rnorm(N)
  x2 = rnorm(N)                        # these variables are uncorrelated
  x3 = rnorm(N)
  y  = beta0 + beta1*x1 + beta2*x2 + beta3*x3 + rnorm(100)
  mod = lm(y~x1+x2)                    # note all 3 variables are relevant
                                       # but the model omits x3
  b0VectU[i] = coef(mod)[1]            # here I'm storing the estimates
  b1VectU[i] = coef(mod)[2]
  b2VectU[i] = coef(mod)[3]
}
mean(b0VectU)  # [1] -71.00005         # all 3 of these are centered on the
mean(b1VectU)  # [1] 0.8399306         # the true values / are unbiased
mean(b2VectU)  # [1] 0.6398391         # e.g., .64 = .64

############## correlated version

r23 = .7                               # this will be the correlation in the
b0VectC = vector(length=10000)         # population between x2 & x3
b1VectC = vector(length=10000)
b2VectC = vector(length=10000)
set.seed(2734)

for(i in 1:10000){
  x1 = rnorm(N)
  X  = mvrnorm(N, mu=c(0,0), Sigma=rbind(c(  1, r23),
                                         c(r23,   1)))
  x2 = X[,1]
  x3 = X[,2]                           # x3 is correated w/ x2, but not x1
  y  = beta0 + beta1*x1 + beta2*x2 + beta3*x3 + rnorm(100)
                                       # once again, all 3 variables are relevant
  mod = lm(y~x1+x2)                    # but the model omits x3
  b0VectC[i] = coef(mod)[1]
  b1VectC[i] = coef(mod)[2]            # we store the estimates again
  b2VectC[i] = coef(mod)[3]
}
mean(b0VectC)  # [1] -70.99916         # the 1st 2 are unbiased
mean(b1VectC)  # [1] 0.8409656         # but the sampling dist of x2 is biased
mean(b2VectC)  # [1] 0.8784184         # .88 not equal to .64

Gung - Восстановить Монику
источник

Итак, можете ли вы объяснить немного больше - что произойдет, если мы предположим, что x3 не соотносится с $ x_1 и x2? Тогда что произойдет, если я оценю y = a + b1x1 + b2x2 + u?

Ренати

1

b_{3} x_{3}

$b_3x_3$ будет включен в остатки в любом случае, но если он не коррелирован в совокупности, то ваши другие s не будут смещены отсутствием , но если это не некоррелировано, то они будут.

b

$b$

x_{3}

$x_3$

gung - Восстановить Монику

Чтобы сформулировать это более четко: если

не коррелирует с

или

, все в порядке.

x_{3}

$x_3$

x_{1}

$x_1$

x_{2}

$x_2$

gung - Восстановить Монику

Я обсуждаю обратную сторону этого вопроса в своем ответе здесь: Изменяет ли добавление большего количества переменных в многовариантную регрессию коэффициенты существующих переменных?

gung - Восстановить Монику

3

Давайте подумаем об этом в геометрических терминах. Думайте о "шаре", поверхности шара. Он описывается как . Теперь, если у вас есть значения для , , , и у вас есть измерения то вы можете определить свои коэффициенты «a», «b» и «c». (Вы можете назвать это эллипсоидом, но назвать его мячом проще.) $r^2 = ax^2+by^2+cz^2 + \epsilon$ $x^2$ $y^2$ $z^2$ $r^2$

Если у вас есть только члены и вы можете сделать круг. Вместо того, чтобы определять поверхность шара, вы будете описывать закрашенный круг. Уравнение, которое вы вместо этого подходите: . $x^2$ $y^2$ $r^2 \le ax^2 + by^2 + \epsilon$

Вы проецируете «шар», какой бы он ни был, в выражение для круга. Это может быть «шар», ориентированный по диагонали, который имеет форму, напоминающую швейную иглу, и поэтому компоненты полностью разрушают оценки двух осей. Это может быть шар, похожий на почти раздавленный м-м, где оси монеты - это «х» и «у», а проекция нулевая. Вы не можете знать, что это без информации " ". $z$ $z$

В этом последнем абзаце говорилось о случае «чистой информации» и не было никакого шума. Измерения в реальном мире имеют сигнал с шумом. Шум по периметру, который выровнен по осям, будет оказывать гораздо более сильное влияние на вашу посадку. Даже если у вас одинаковое количество выборок, у вас будет больше неопределенности в оценках параметров. Если это уравнение отличается от этого простого случая, ориентированного на линейную ось, то все может пойти «в форме груши ». Ваши текущие уравнения имеют плоскую форму, поэтому вместо границы (поверхности шара) z-данные могут просто распространяться по всей карте - проекция может быть серьезной проблемой.

Это нормально для модели? Это суждение. На это может ответить эксперт, который понимает детали проблемы. Я не знаю, может ли кто-нибудь дать хороший ответ, если он далек от проблемы.

Вы теряете несколько хороших вещей, включая определенность в оценках параметров и характер преобразуемой модели.

Оценка для исчезает в эпсилоне и в других оценках параметров. Это подчинено целому уравнению, в зависимости от базовой системы. $b_3$

EngrStudent - Восстановить Монику
источник

1

Я не могу действительно следовать вашему аргументу здесь, и я не уверен, что это правильно. Например, площадь поверхности сферы равна

4 π r^{2}

$4\pi r^2$ . Кроме того, я не уверен, как это связано с вопросом. Ключевой вопрос заключается в том, является ли пропущенная переменная коррелированной с переменными, которые есть в модели. Я не уверен, как то, что вы говорите, решает эту проблему. (Для ясности я продемонстрирую это с помощью простой симуляции R.)

gung - Восстановить Монику

Гун. Я дал сферу ответа в лучшем случае -> кружок и показал, что она неожиданно изменила модель. Мне понравилась техническая изощренность вашего ответа, но я не уверен, что спрашивающий может использовать любой из наших ответов.

есть уравнение поверхности эллипсоида в 3 -х измерениях, сфера один случай из него. Я предполагаю, что «истинная модель» - это поверхность сферы, но измерения, искаженные шумом, находятся на поверхности. Выброс одного измерения дает данные, которые в лучшем случае образуют заполненный круг вместо поверхности сферы.

f (x, y, z)

$f(x,y,z)$

EngrStudent - Восстановить Монику

Я не могу следовать вашему аргументу, потому что я не вижу ничего, что соответствует «закрашенному квадрату».

whuber

0

Другие ответы, хотя и не неправильные, несколько усложняют проблему.

Если действительно не коррелирует с и (и истинное соотношение соответствует указанному), то вы можете оценить ваше второе уравнение без проблем. Как вы предполагаете, будет поглощено (новым) условием ошибки. Оценки OLS будут беспристрастными, пока все остальные предположения OLS верны. $x_3$ $x_1$ $x_2$ $\beta_3 x_3$

Даниэль Людвински
источник

Оценка

Ответы: