Я унаследовал некоторый код анализа данных, который, не будучи эконометриком, я изо всех сил пытаюсь понять. Одна модель запускает регрессию инструментальных переменных с помощью следующей команды Stata
ivreg my_dv var1 var2 var3 (L.my_dv = D2.my_dv D3.my_dv D4.my_dv)
Этот набор данных представляет собой панель с несколькими последовательными наблюдениями для этого набора переменных.
Почему этот код использует запаздывающие значения DV в качестве инструментов? Насколько я понимаю (от копания в старом учебнике), оценка IV используется, когда есть проблема из-за корреляции регрессора с термином ошибки. Однако ничего не упоминается о выборе лагов DV в качестве инструментов.
Комментарий к этой строке кода упоминает «причинность». Любая помощь в выяснении того, что было целью здесь, была бы очень кстати.
regression
stata
instrumental-variables
laramichaels
источник
источник
Ответы:
Изменить: учитывая разъяснение кода Stata, представленное Энди W ниже, я изменил свой ответ, чтобы лучше ответить на вопрос. Вы найдете старую версию моего ответа ниже текущей.
Кажется, ваш код - неуклюжая попытка поделить оценку Ареллано-Бонда (при условии оценки ivreg с 2SOLS). Вы можете найти более подробную информацию об использовании и логике оценки A / B в этой прекрасной обзорной статье , а также в этом более широком внедрении.
В двух словах и в трех строках: хотя оценщик A / B действительно является (обобщенным) оценщиком IV, он не используется для решения какой-либо проблемы причинности. IV в этом контексте используются для обеспечения эффективной оценки коэффициента AR в контексте данных панели.
Я бы рекомендовал не изобретать колесо здесь, а вместо этого использовать готовый набор инструментов для выполнения таких оценок. Для stata вы можете использовать пакет XTABOND2 (или XTABOND, если вы используете STAT11).
старый ответ:
Простой пример поможет вам здесь. Предположим, у вас есть две переменные и выбранные во времени, так что корреляция между и очень высока. Вы хотели бы заявить о том, что вызывает но, к сожалению, существует очень хорошая конкурирующая и заслуживающая доверия теория, согласно которой вызывает .xt yt xt yt xt yt yt xt
Чтобы распутать две конкурирующие модели, вы регрессируете на (вместо ). Часто вы теряете в точности (т.е. корреляция между переменными, выбранными в разное время, обычно ниже, чем корреляция между переменными, выбранными одновременно).yt xt−1 xt
То, как две конкурирующие модели - и - теперь распутаны, заключается в том, что, по-видимому, не существует хорошей теории, согласно которой из одного период назад может быть вызван текущим («прошлое не может быть вызвано будущим»), исключая второе чувство причинности.yt←xt−1 xt−1←yt x y
Обратите внимание, что использование этого трюка допустимо только в том случае, если обе переменные ( и являются стационарными ).yt xt−1 I(0)
источник
Я не знаю Stata, поэтому я не могу комментировать конкретную модель. Но использование лаговых переменных является довольно распространенным подходом, когда речь идет о смещении одновременности в целом и создании инструментальных переменных в частности.
Скажем, у вас есть обратная связь между двумя переменными в вашей модели: независимой переменной (такой как цена) и зависимой переменной (такой как количество). Тогда оба являются эндогенными (их причины возникают изнутри модели), и возмущения в отношении ошибки будут влиять на обе переменные.
Чтобы решить эту проблему, необходимо сделать независимую переменную (цену) экзогенной, чтобы возмущения в ошибке влияли только на зависимую переменную (количество). Это достигается путем создания новых экзогенных переменных путем регрессии других экзогенных переменных в вашей модели по цене. Эти новые экзогенные переменные являются вашими инструментальными переменными (IV). IV получены из экзогенных терминов и, следовательно, не связаны с ошибкой.
Но для этого вам нужно выяснить, какие переменные являются экзогенными, чтобы их можно было использовать для получения IV. Можно отметить, что отстающие переменные «встречались» в прошлом и, следовательно, не могут быть соотнесены с ошибкой в настоящем. Таким образом, лаговые переменные являются экзогенными и становятся удобными кандидатами для получения IV. (Тем не менее, обратите внимание, что предыдущий аргумент не выполняется, когда ошибки автокоррелируются.)
Хорошее введение и ссылка на это - Вводная эконометрика: современный подход Вулдриджа.
источник
Для тех, кто не знаком со следующим фрагментом кода из Stata, предоставляется OP
ivreg my_dv var1 var2 var3 (L.my_dv = D2.my_dv D3.my_dv D4.my_dv)
это уравнение можно прочитать как
где оценивается какY~t−1
(т.е. первая стадия уравнения IV находится в скобках в коде Stata)
Дельты представляют разности второго, третьего и четвертого порядка и используются как исключенные инструменты для оценки отставания зависимой переменной.
В коде Stata знакt−1
L.
указывает на отставание этой переменной на и обозначает различия первого порядка этой переменной, и, следовательно, обозначает разницу второго порядка.D.
D2.
По сути, я не мог придумать логических рассуждений, почему кто-то будет это делать. Но Квак указал (ссылаясь на эту статью ), что метод Ареллано-Бонда использует различия в качестве инструментов для оценки авторегрессивного компонента модели. (Также изначально я предполагал, что различия будут иметь эффект только в том случае, если ряд нестационарен, и Бонд утверждает, что различия будут слабыми инструментами в случае случайного блуждания ряда, на стр. 21 )
В качестве предложений для дальнейшего чтения материала, как введение в инструментальные переменные,
Другой постер в этом ответе (Чарли) связан с некоторыми слайдами, которые он подготовил, которые мне нравятся и которые я бы посоветовал. Я также предложил бы эту точку зрения, которую мой профессор подготовил для семинара в качестве вступительного слова. В качестве последнего предложения для тех, кто заинтересован в том, чтобы узнать больше об инструментальных переменных, вы должны посмотреть на работу Джошуа Ангриста.
Вот мой первоначальный ответ
Хотя я согласен со всем, что заявили Квак и Арс, я все еще не могу придумать причину, по которой кто-то использовал бы различия зависимой переменной в качестве инструментов для оценки отставания зависимой переменной (если люди не знают код Stata,t−1
L.
указывает на отставание этой переменной на , и обозначает различия первого порядка этой переменной, и, следовательно, означает различие второго порядка).D.
D2.
Во всех приложениях, которые я видел, люди используют лаг независимых переменных как инструменты для оценки отставания зависимой переменной (по причинам, о которых говорит Арс). Но это основано на предположении, что отстающие независимые переменные являются экзогенными по отношению к члену ошибки в период времени, в котором они применяются.
Я не знаю каких-либо рассуждений, в которых различия зависимой переменной считались бы экзогенными. Насколько мне известно, не принято практиковать различие только одной стороны уравнения, и это может привести к довольно нелогичным результатам ( вот статья, в которой кто-то критикует обратную ситуацию, в которой они включали уровень переменных в качестве предиктора разностный ряд.) Если вы переставляете члены в уравнении IV, то на самом деле это выглядит как расширенный тест Дики Фуллера.
Хотя самым простым ответом было бы спросить человека, написавшего код, может ли кто-нибудь привести пример, в котором эта процедура была бы приемлемой, или какая-нибудь ситуация, в которой эта процедура вернула бы некоторые значимые результаты? Как и я, я не могу придумать каких-либо логических доводов, почему различия будут влиять на уровни, за исключением случая, когда ряд нестационарен.
источник