Зачем использовать DV с задержкой в ​​качестве инструментальной переменной?

12

Я унаследовал некоторый код анализа данных, который, не будучи эконометриком, я изо всех сил пытаюсь понять. Одна модель запускает регрессию инструментальных переменных с помощью следующей команды Stata

ivreg my_dv var1 var2 var3 (L.my_dv = D2.my_dv D3.my_dv D4.my_dv)

Этот набор данных представляет собой панель с несколькими последовательными наблюдениями для этого набора переменных.

Почему этот код использует запаздывающие значения DV в качестве инструментов? Насколько я понимаю (от копания в старом учебнике), оценка IV используется, когда есть проблема из-за корреляции регрессора с термином ошибки. Однако ничего не упоминается о выборе лагов DV в качестве инструментов.

Комментарий к этой строке кода упоминает «причинность». Любая помощь в выяснении того, что было целью здесь, была бы очень кстати.

laramichaels
источник
Из вашего вопроса вы, возможно, читаете код немного неправильно. Синтаксис использует различия в качестве «инструментов» для оценки отставания зависимой переменной.
Энди W
Лара: не могли бы вы отредактировать свой вопрос, чтобы объяснить в понятных терминах значение кода stata?
user603

Ответы:

7

Изменить: учитывая разъяснение кода Stata, представленное Энди W ниже, я изменил свой ответ, чтобы лучше ответить на вопрос. Вы найдете старую версию моего ответа ниже текущей.

Кажется, ваш код - неуклюжая попытка поделить оценку Ареллано-Бонда (при условии оценки ivreg с 2SOLS). Вы можете найти более подробную информацию об использовании и логике оценки A / B в этой прекрасной обзорной статье , а также в этом более широком внедрении.

В двух словах и в трех строках: хотя оценщик A / B действительно является (обобщенным) оценщиком IV, он не используется для решения какой-либо проблемы причинности. IV в этом контексте используются для обеспечения эффективной оценки коэффициента AR в контексте данных панели.

Я бы рекомендовал не изобретать колесо здесь, а вместо этого использовать готовый набор инструментов для выполнения таких оценок. Для stata вы можете использовать пакет XTABOND2 (или XTABOND, если вы используете STAT11).


старый ответ:

Простой пример поможет вам здесь. Предположим, у вас есть две переменные и выбранные во времени, так что корреляция между и очень высока. Вы хотели бы заявить о том, что вызывает но, к сожалению, существует очень хорошая конкурирующая и заслуживающая доверия теория, согласно которой вызывает .xtytxtytxtytytxt

Чтобы распутать две конкурирующие модели, вы регрессируете на (вместо ). Часто вы теряете в точности (т.е. корреляция между переменными, выбранными в разное время, обычно ниже, чем корреляция между переменными, выбранными одновременно).ytxt1xt

То, как две конкурирующие модели - и - теперь распутаны, заключается в том, что, по-видимому, не существует хорошей теории, согласно которой из одного период назад может быть вызван текущим («прошлое не может быть вызвано будущим»), исключая второе чувство причинности.ytxt1xt1ytxy

Обратите внимание, что использование этого трюка допустимо только в том случае, если обе переменные ( и являются стационарными ).ytxt1I(0)

user603
источник
+1 Согласитесь с такой трактовкой о том, что она похожа на DIY Arellano-Bond. NB: Я считаю, что Ареллано-Бонд заслуживает доверия только тогда, когда число поперечных сечений очень велико - например, во многих сотнях. Арельано намекает на это в своих статьях и учебниках, указывая, что согласованность заключается в количестве единиц поперечного сечения, и скорость сходимости не такая уж быстрая.
Cyrus S
5

Я не знаю Stata, поэтому я не могу комментировать конкретную модель. Но использование лаговых переменных является довольно распространенным подходом, когда речь идет о смещении одновременности в целом и создании инструментальных переменных в частности.

Скажем, у вас есть обратная связь между двумя переменными в вашей модели: независимой переменной (такой как цена) и зависимой переменной (такой как количество). Тогда оба являются эндогенными (их причины возникают изнутри модели), и возмущения в отношении ошибки будут влиять на обе переменные.

Чтобы решить эту проблему, необходимо сделать независимую переменную (цену) экзогенной, чтобы возмущения в ошибке влияли только на зависимую переменную (количество). Это достигается путем создания новых экзогенных переменных путем регрессии других экзогенных переменных в вашей модели по цене. Эти новые экзогенные переменные являются вашими инструментальными переменными (IV). IV получены из экзогенных терминов и, следовательно, не связаны с ошибкой.

Но для этого вам нужно выяснить, какие переменные являются экзогенными, чтобы их можно было использовать для получения IV. Можно отметить, что отстающие переменные «встречались» в прошлом и, следовательно, не могут быть соотнесены с ошибкой в ​​настоящем. Таким образом, лаговые переменные являются экзогенными и становятся удобными кандидатами для получения IV. (Тем не менее, обратите внимание, что предыдущий аргумент не выполняется, когда ошибки автокоррелируются.)

Хорошее введение и ссылка на это - Вводная эконометрика: современный подход Вулдриджа.

АРС
источник
5

Для тех, кто не знаком со следующим фрагментом кода из Stata, предоставляется OP

ivreg my_dv var1 var2 var3 (L.my_dv = D2.my_dv D3.my_dv D4.my_dv)

это уравнение можно прочитать как

Yt=α+β1(Var1)+β2(Var1)+β3(Var1)+β4(Y~t1)

где оценивается какY~t1

Y~t1=α+Z1(Δ2Yt)+Z2(Δ3Yt)+Z3(Δ4Yt)

(т.е. первая стадия уравнения IV находится в скобках в коде Stata)

Дельты представляют разности второго, третьего и четвертого порядка и используются как исключенные инструменты для оценки отставания зависимой переменной.

В коде Stata знак L.указывает на отставание этой переменной на и обозначает различия первого порядка этой переменной, и, следовательно, обозначает разницу второго порядка.t1D.D2.

По сути, я не мог придумать логических рассуждений, почему кто-то будет это делать. Но Квак указал (ссылаясь на эту статью ), что метод Ареллано-Бонда использует различия в качестве инструментов для оценки авторегрессивного компонента модели. (Также изначально я предполагал, что различия будут иметь эффект только в том случае, если ряд нестационарен, и Бонд утверждает, что различия будут слабыми инструментами в случае случайного блуждания ряда, на стр. 21 )

В качестве предложений для дальнейшего чтения материала, как введение в инструментальные переменные,

Другой постер в этом ответе (Чарли) связан с некоторыми слайдами, которые он подготовил, которые мне нравятся и которые я бы посоветовал. Я также предложил бы эту точку зрения, которую мой профессор подготовил для семинара в качестве вступительного слова. В качестве последнего предложения для тех, кто заинтересован в том, чтобы узнать больше об инструментальных переменных, вы должны посмотреть на работу Джошуа Ангриста.

Вот мой первоначальный ответ


Хотя я согласен со всем, что заявили Квак и Арс, я все еще не могу придумать причину, по которой кто-то использовал бы различия зависимой переменной в качестве инструментов для оценки отставания зависимой переменной (если люди не знают код Stata, L.указывает на отставание этой переменной на , и обозначает различия первого порядка этой переменной, и, следовательно, означает различие второго порядка).t1D.D2.

Во всех приложениях, которые я видел, люди используют лаг независимых переменных как инструменты для оценки отставания зависимой переменной (по причинам, о которых говорит Арс). Но это основано на предположении, что отстающие независимые переменные являются экзогенными по отношению к члену ошибки в период времени, в котором они применяются.

Я не знаю каких-либо рассуждений, в которых различия зависимой переменной считались бы экзогенными. Насколько мне известно, не принято практиковать различие только одной стороны уравнения, и это может привести к довольно нелогичным результатам ( вот статья, в которой кто-то критикует обратную ситуацию, в которой они включали уровень переменных в качестве предиктора разностный ряд.) Если вы переставляете члены в уравнении IV, то на самом деле это выглядит как расширенный тест Дики Фуллера.

Хотя самым простым ответом было бы спросить человека, написавшего код, может ли кто-нибудь привести пример, в котором эта процедура была бы приемлемой, или какая-нибудь ситуация, в которой эта процедура вернула бы некоторые значимые результаты? Как и я, я не могу придумать каких-либо логических доводов, почему различия будут влиять на уровни, за исключением случая, когда ряд нестационарен.

Энди У
источник
Привет Энди. Я не знаю код stata. Вот почему я не упоминаю код, указанный в моем ответе, который следует понимать как ответ на ту часть вопроса, которая сформулирована на английском языке.
user603
@kwak - я не критиковал ваш пост, я согласен со всем, что вы сказали. Мне просто было интересно, есть ли какая-то логика относительно того, почему кто-то использует различия в качестве инструментов, о которых я не знал. Я не могу представить себе ситуацию, в которой различия соответствовали бы какому-либо из требований такой процедуры.
Энди W
Привет Энди:> Я не принял твой комментарий как критика. Ваш пост высвечивает ключевой аспект вопроса, который ни Роб, ни я (по общему признанию) не поняли. Во всяком случае, это иллюстрирует важность сотрудничества.
user603
+1. Раньше не видел всего этого - спасибо, что обратили внимание на проблему, а также на курс мини-кеша по нотации stata. Я принял ваш первый комментарий, чтобы понять, что интерпретация была ошибочной, и ответил в очень общем смысле. Я рад, что вы были более настойчивы, и этот квак понял это.
АРС