Что произойдет, если «контрольные переменные» также являются эндогенными?

13

Я работаю в политической экономии, и многие модели включают в себя «невинные» контрольные переменные, такие как население, неравенство, колониальное наследие и т. Д., Так что автор может претендовать на объективность своей независимой переменной интереса.

Но если какая-либо из этих управляющих переменных является эндогенной для некоторой пропущенной переменной, не загрязняет ли это объективность ВСЕХ независимых переменных?

Если это правда, то что мы можем сделать? Оставьте эти управляющие переменные вне поля, и они сами приведут к отсутствию смещения переменных. Включите их, и они загрязнят все в модели.

Пример: исследователь хочет знать, приводит ли неравенство к насилию, и он контролирует несколько вещей: Видя, что неравенство , вероятно, будет эндогенным ( из-за пропущенной переменной Level of altruism ) он попытается найти инструментальную переменную для неравенства . Но разве рост и развитие не могут быть эндогенными (то есть коррелированными с уровнем альтруизма )?

Violence=Inequality+Growth+Development+ϵ

Этот пример может показаться глупым, но моя точка зрения связана с политической экономикой / разработкой, так как в игре так много факторов (но они опущены), что я боюсь, что многие переменные, включенные в LHS, являются эндогенными. Тем не менее, часто исследователь ищет инструмент только для своей независимой переменной.

Гейзенберг
источник
Еще одна вещь, которую следует рассмотреть, это так называемая проблема «плохого контроля» - ситуация, когда контроль является самой переменной результата. Я бы посоветовал вам прочитать Раздел 3.2.3 в знаменитой «Сильно безвредной эконометрике» Ангриста и Пишке, чтобы понять эту тему и понять, почему это важно, если вы хотите лучше понять свой вопрос.
МауОливарес

Ответы:

10

«Но если какая-либо из этих контрольных переменных является эндогенной для некоторой пропущенной переменной, разве это не загрязняет объективность ВСЕХ независимых переменных?»

Я не хочу особо подчеркивать это, но стоит упомянуть, что это не так в целом. Надеемся, что следующий вывод даст некоторое представление о «загрязнении», о котором вы упомянули. В качестве простого контрпримера, предположим, что процесс генерирования данных задается как где не наблюдается. Пусть , и . Тогда ясно, что является «эндогенным». Но обратите внимание, что, поскольку , наша оценка все равно будет в порядке: Z C o v ( X 1 , Z ) = 0 C o v ( X 2 , Z ) 0 C o v ( X 1 , X 2 ) = 0 X 2 C o v ( X 1 ,

Y=X1β1+X2β2+Zγ+ε,
ZCov(X1,Z)=0Cov(X2,Z)0Cov(X1,X2)=0X2β 1 плимCov(X1,Z)=0β1X1 =M2X1M2=[I-X2(X2 X2)-1X2 ]Cov(X1,X2)=0X1 =X1Co
plimβ^1=β1+γCov(X1,Z)Var(X1)=β1,
где и . Потому что , . Итак, .X1=M2X1M2=[IX2(X2X2)1X2]Cov(X1,X2)=0X1=X1Cov(X1,Z)=0

"Что мы можем сделать?"

Одной из основных задач создания хорошей эконометрики является продумывание потенциальных стратегий идентификации. В описываемой вами ситуации вы, вероятно, ничего не можете сделать, кроме как попытаться по-другому подойти к проблеме.

jmbejara
источник
Хотя вы технически правы, я бы не стал подчеркивать этот момент. Я бы предпочел сказать, что в целом мы не можем исключить смещение любой из переменных, вместо того, чтобы говорить в некоторых сценариях, что это нормально , потому что мы обычно не знаем DGP.
FooBar
1) Не могли бы вы указать мне ссылку, где получена таким образом? Меня не учили этому в моей эконометрике. 2) Где вы используете в доказательстве? Кажется, что достаточно. 3) Я согласен с @FooBar, что - исключение, а не норма. Действительно, если мы бы не стали контролировать в первую очередь (за исключением повышения точности). COV(X1,Z)=0Соv(Х1,Х-2)=0Соv(Х1,Х2)=0Соv(Х1,Х2)=0X2β^Cov(X1,Z)=0Cov(X1,X2)=0Cov(X1,X2)=0Cov(X1,X2)=0X2
Гейзенберг
@FooBar, я согласен. Я обновил пост, чтобы подчеркнуть, что это особый случай. Что касается вопроса о незнании DGP, это правда. Но дело не в этом. Любой анализ должен делать предположения о DGP, и качество анализа зависит от качества предположений. Вывод, который я дал, служит только для иллюстрации примера предположений (хотя и очень сильных), которые могут привести вас туда, куда вы хотите пойти.
Джмбехара
@ Heisenberg: 1) Не могли бы вы открыть новый вопрос по этому поводу? Если вы просто скопируете и вставите вывод и представите свой вопрос, это будет лучше. 2) необходим, когда я говорю, что . 3) Ты прав. Если мы заинтересованы в прогнозировании , это было бы важно. Но да, это хороший момент. С другой стороны, может быть полезно отметить, что размер смещения зависит от того, насколько коррелированными вы считаете и . C o v ( X 1 , Z ) = 0 Y X 1 X 2Cov(X1,Z)=0Cov(X1,Z)=0YX1X2
Джмбехара
1
@jmbejara я выложил 1) как отдельный вопрос . Пожалуйста, не стесняйтесь редактировать мой вопрос / заголовок, так как я не знаю, как правильно и правильно сформулировать заголовок в этом случае для Googler.
Гейзенберг
6

Все слишком сильно, но, вероятно, некоторые. Эта проблема называется «размазыванием». Взгляните на доказательство в лекционных заметках Грина на слайде 5.

У Эмили Остер есть хороший рабочий документ (и команда Stata psacalc), который может помочь ограничить предвзятость.

Димитрий Васильевич Мастеров
источник
5

В контексте оценки наименьших квадратов мы должны (пытаться) справиться с возможной эндогенностью регрессоров через оценку инструментальных переменных. Этот подход не зависит от наличия только одного эндогенного регрессора - у вас их может быть много. В таком случае, конечно, вам нужно найти больше инструментов, которые усложняют ситуацию, но в принципе метод будет работать так же.

Оценка IV не решает проблему смещения, она только обеспечивает последовательность для оценщика. Но ничто не решает проблему строгой экзогенности самого смещения (и тогда есть некоторые методы уменьшения смещения). Но если вы посмотрите на другой сайт SE, Cross Validated , который посвящен статистике, вы увидите, что опытные статистики на самом деле не придают большого значения свойству непредвзятости - они фокусируются на среднеквадратичной эффективности для конечных выборочных свойств, и на согласованность для больших свойств образца.

Алекос Пападопулос
источник
1
Таким образом, правильный подход заключается в том, чтобы действительно найти инструменты для всех эндогенных переменных, верно?
Гейзенберг
1
Да, это так.
Алекос Пападопулос
5

Это пример того, что статистик Эндрю Гельман называет «ошибкой контроля за промежуточным результатом». Вот его описание этой ошибки, которая появляется, когда исследователи спрашивают, меняет ли ваша дочь больше вашей политики. Решение иметь второго ребенка обязательно зависит от предыдущего решения о рождении первого ребенка, и, таким образом, кажется ясным примером контроля за переменной решения, которая была эндогенной.

В последние несколько лет было проведено несколько исследований, посвященных экономическим решениям родителей сыновей по сравнению с родителями дочерей ... Общей чертой всех этих исследований является то, что они контролируют общее количество детей ... На первый взгляд, контроль за общим количеством детей кажется разумным. Однако существует трудность, заключающаяся в том, что общее число детей является промежуточным результатом, и контроль за ним (будь то путем поднабора данных, основанных на #kids или использования #kids в качестве контрольной переменной в регрессионной модели) может сместить оценку причинного эффекта наличия сына (или дочери).

Чтобы увидеть это, предположим (гипотетически), что политически консервативные родители с большей вероятностью хотят иметь сыновей, и если у них есть две дочери, они (гипотетически) с большей вероятностью будут пытаться найти третьего ребенка. Для сравнения, либералы чаще останавливаются на двух дочерях. В этом случае, если вы посмотрите на данные о семьях с 2 дочерьми, консерваторы будут недопредставлены, и эти данные могут показать корреляцию дочерей с политическим либерализмом - даже если наличие дочерей не имеет никакого эффекта! ...

Решение заключается в применении стандартного консервативного (в статистическом смысле!) Подхода к причинно-следственной связи, который заключается в регрессии в вашей переменной лечения (пол ребенка), но контролирует только то, что происходит до рождения ребенка. Например, можно сравнить родителей, у которых первый ребенок - девочка, с родителями, у которых первый ребенок - мальчик. Можно также взглянуть на второе рождение, сравнивая родителей, у которых второй ребенок - девочка, с теми, чей второй ребенок - мальчик, контролируя пол первого ребенка. И так далее для третьего ребенка и т. Д.

Наличие сыновей делает вас более консервативным? Может быть, а может и нет. Проблема с контролем промежуточного результата

Что касается вашего комментария: «Не указывайте эти переменные управления, и они сами приводят к пропускам смещения переменных», похоже, это зависит от того, какой инструмент вы получите. Хороший инструмент, который действительно удовлетворяет требованиям, должен быть независимым от термина ошибки на втором этапе и независимым от всего, что вы контролируете напрямую . То есть инструмент меняет Y только через X. Таким образом, подходящий инструмент для неравенства должен быть независим от роста и развития (удачи в этом!), Если мы считаем, что уравнение насилия является структурным уравнением насилия.

BKay
источник
1

Как отмечали другие посты, эндогенные регрессоры могут загрязнять все оценки параметров в регрессии, когда регрессоры коррелируют.

X1X2X2X1

β^1X2X1X2

Рассмотрим следующую модель (аналогичную нотации @ jmbejara)

y=X1β1+X2β2+Zγ+ε,

Zε1nx1(k)εp01nx2(k)εp0kX2для некоторой пары переменных(k,l).1nx1(k)z(l)p0(k,l)

X2X1X1ZX2

1nx1(k)QX2z(l)p0
(k,l)QX2X2QX2[InX2(X2X2)1X2]β1

β^1=(X1QX2X1)1X1QX2y=β1+(X1QX2X1)1X1QX2X2p0β2+(X1QX2X1)1X1QX2Zp0γ+(X1QX2X1)1X1QX2εp0
X1X2
Мерфи
источник