Что по существу означают «эндогенность» и «экзогенность»?

43

Я понимаю, что основное определение эндогенности состоит в том, что не выполняется, но что это означает в смысле реального мира? Я прочитал статью в Википедии с примером спроса и предложения, пытаясь понять это, но это не помогло. Я слышал другое описание эндогенного и экзогенного, как находящегося внутри системы и находящегося вне системы, и это все еще не имеет смысла для меня.

Xϵ=0
user25901
источник
1
Все три ответа ниже очень хороши (+1 к каждому). Если вам нужен другой источник информации, я обсуждаю эту тему здесь: Оценка вместоb 1 x 1 + b 2 x 2 + b 3 x 3b1x1+b2x2b1x1+b2x2+b3x3 , и проиллюстрируйте это без моделирования R.
gung - Восстановить Монику
1
Когда у вас есть эндогенность, у вашей регрессии больше нет пригодных для использования оценок или тестовой статистики.
Иван
1
Я согласен с @gung, и хотел бы подчеркнуть, что полный ответ будет касаться «Можно использовать для каких целей »? Многие из приведенных выше ответов очень хорошо справляются с этим вопросом.
Мэтью Друри,
@ Matthew Мне кажется, что этот пост пытается ответить на вопрос "что это значит в реальном мире?" Было бы неплохо увидеть объяснение, чтобы люди могли оценить его лучше.
whuber
@ whuber Я не знаю, это так коротко, что я не могу сказать. Но я думал, например, что оценочная модель может быть полезна для прогнозирования (или просто ассоциации), даже если у вас есть эндогенность, поэтому «больше нет пригодных для использования оценок» кажется ложным без объяснения.
Мэтью Друри

Ответы:

69

Ответ JohnRos очень хороший. Проще говоря, эндогенность означает, что вы неправильно поняли причину. То, что модель, которую вы записали и оценили, неправильно отражает то, как причинная связь работает в реальном мире. Когда вы пишете:

Yi=β0+β1Xi+ϵi

Вы можете думать об этом уравнении несколькими способами. Вы можете думать об этом как об удобном способе предсказания на основе значенийВы можете думать об этом как об удобном способе моделирования . В любом из этих случаев нет такой вещи как эндогенность, и вам не нужно беспокоиться об этом.X E { Y | X }YXE{Y|X}

Тем не менее, вы также можете думать об уравнении как о воплощении причинно-следственной связи. Вы можете думать о как об ответе на вопрос: «Что случилось бы с если бы я добрался до этой системы и экспериментально увеличил на 1?» Если вы хотите думать об этом таким образом, использование OLS для оценки этого означает, что: Y Xβ1YX

  1. YX вызываетY
  2. Yϵ вызываетY
  3. Xϵ не вызываетX
  4. XY не вызываетX
  5. Ничто, вызывающее также не вызываетXϵX

Сбой любого из 3-5 обычно приводит к или, что не совсем эквивалентно, . Инструментальные переменные - это способ исправить тот факт, что вы неправильно поняли причину (сделав другое, другое, причинное предположение). Отлично проведенное рандомизированное контролируемое исследование - это способ заставить 3-5 быть правдой. Если вы выберете случайно, то это, безусловно, не вызвано , или чем-то еще. Так называемые методы «естественного эксперимента» - это попытки найти особые обстоятельства в мире, где 3-5 верны, даже если мы не думаем, что 3-5 обычно верны.C o v ( X , ϵ ) 0 X Y ϵE{ϵ|X}0Cov(X,ϵ)0XYϵ

В примере JohnRos для расчета величины заработной платы в сфере образования вам нужна причинно-следственная интерпретация , но есть веские основания полагать, что 3 или 5 неверно.β1

Ваше замешательство понятно, хотя. На курсах по линейной модели очень характерно, чтобы преподаватель использовал причинную интерпретацию я дал выше, делая вид, что не вводит причинно-следственную связь, притворяясь, что «это всего лишь статистика». Это трусливая ложь, но она также очень распространена. β1

На самом деле, это часть более крупного явления в биомедицине и общественных науках. Почти всегда мы пытаемся определить причинное влияние на - в этом и заключается наука. С другой стороны, это также почти всегда тот случай, когда есть какая-то история, которую вы можете рассказать, которая приводит к выводу, что один из 3-5 является ложным. Таким образом, существует некая практичная, двусмысленная недобросовестность, в которой мы отбрасываем возражения, говоря, что мы просто выполняем ассоциативную работу, а затем скрываем причинную интерпретацию в другом месте (обычно в разделах введения и заключения статьи).YXY

Если вам действительно интересно, читайте парня по имени Иудея Перл. Джеймс Хекман тоже хорош.

Билл
источник
5
+1 Отличное объяснение и комментарий. Добро пожаловать на наш сайт!
whuber
2
Не могли бы вы указать, какую работу Хекмана вы бы порекомендовали для получения базового и твердого понимания по этому вопросу?
Кенни ЖЖ
У меня вопрос: как проверить, есть ли или E [ ϵ X ] = 0 верно «используя ваши данные под рукой (а не ваши знания предметной области), которые могут не прийти из эксперимента, то есть набор данных наблюдений»? Я чувствую, что нет способа протестировать или просто использовать данные, так как не наблюдается, тогда правда ли, что эндогенность не может быть протестирована с использованием данных? E[ϵ|X]=0E[ϵX]=0E [ ϵ X ] = 0 ϵE[ϵ|X]=0E[ϵX]=0ϵ
КевинКим,
1
@KevinKim Да. не проверяется статистикой. не может быть восстановлен / оценен, кроме как путем проведения оценки и последующего внесения остатков. Восстановление может быть сделано только после оценки. Восстановление является правильным, только если оценка сделана правильно. Оценка выполняется правильно, только если . Итак, круговой. Информация о том, что должна исходить из существенных, нестатистических знаний. Примером этого является то, что где - остатки OLS. Это верно независимо от того, . ϵ E { ϵ | X } = 0 E { ϵ | X } = 0 C o v { X , e } = 0 e E { ϵ | X } = 0E{ϵ|X}=0ϵE{ϵ|X}=0E{ϵ|X}=0Cov{X,e}=0eE{ϵ|X}=0
Билл
2
@KevinKim Это верно. И это не просто линейная модель. Это вся статистика. Обратите внимание: когда кто-то говорит: «корреляция - это не причинно-следственная связь», он никогда не говорит вам, что такое причинная связь. Причинность есть теория и может быть только теорией. Даже (совершенно - и, следовательно, никогда - не проводимый) RCT не говорит вам причинно-следственную связь без теории.
Билл
18

Позвольте мне использовать пример:

Скажем, вы хотите количественно оценить (причинный) эффект образования на доход. Вы берете данные об образовательных годах и доходах и регрессируете одно против другого. Ты восстановил то, что хотел? Возможно нет! Это связано с тем, что доход обусловлен не только образованием, но и другими вещами, которые связаны с образованием. Давайте назовем их «навыками». Мы можем с уверенностью предположить, что на «годы обучения» влияет «навык», поскольку, чем более вы квалифицированы, тем легче получить образование. Таким образом, если вы регрессируете годы образования на доход, оценка эффекта образования учитывает эффект «умения», и вы получаете слишком оптимистичную оценку возврата к образованию. Это означает, что влияние образования на доход (в сторону повышения) является предвзятым, поскольку образование не является экзогенным по отношению к доходу.

Эндогенность - это только проблема, если вы хотите восстановить причинные эффекты (в отличие от простых корреляций). Кроме того, если вы можете спланировать эксперимент, вы можете гарантировать, что при случайном назначении. К сожалению, это обычно невозможно в социальных науках.Cov(X,ϵ)=0

JohnRos
источник
1
Спасибо за пример и объяснение. Я все еще немного не понимаю, что означают эндогенность и экзогенность на простом английском языке. Что именно я имею в виду, когда говорю, что переменная является эндогенной или, в этом отношении, экзогенной.
user25901
@ JohnRos Вы писали: «Эндогенность - это только проблема, если вы хотите восстановить причинно-следственные связи», тогда мне кажется, что также можно сказать, что «экзогенность подразумевает причинность» ... Я никогда не читал эту фразу ... однако это правильно? Если это правильно, мне кажется, что многие учебники, иногда неявно, считают причинный вывод нормальными целями.
Марковиц
@markowitz: всякий раз, когда вы выводите коэффициенты регрессии, подразумевается, что вы хотите причинности. Если вам нужны только прогнозы, значение коэффициентов на самом деле не имеет значения, при условии, что прогнозы хорошие. Это правда, что классические учебники не делают этого различия, потому что раньше задача предсказания была не «фундаментальной наукой», а скорее «разработкой» (и простите меня за это грубое обобщение)
JohnRos
Спасибо JohnRos, позвольте мне задать еще один вопрос по этому вопросу. Проблема смещенной оценки коэффициентов имеет смысл только в модели причинно-следственной регрессии, в то время как для целей прогнозирования определенно нет. Это правильно? Я спрашиваю об этом, потому что этот пункт не ясен в любом месте.
Марковиц
8

User25901 ищет простое, простое, реальное объяснение того, что означают термины экзогенный и эндогенный. Отвечая тайными примерами или математическими определениями, на самом деле не отвечает на заданный вопрос.

Как мне понять эти два термина?

Вот что я придумал:

Экзо - внешнее, снаружи эндо - внутреннее, внутри - щедрое - происходящее из

Экзогенный: переменная является экзогенной для модели, если она не определяется другими параметрами и переменными в модели, но устанавливается внешне и любые изменения в ней происходят от внешних сил.

Эндогенный: переменная является эндогенной в модели, если она хотя бы частично зависит от других параметров и переменных в модели.

bearvarine
источник
7
Это разумные интуитивные определения, но нет необходимости так пренебрегать другими ответами.
gung - Восстановить Монику
3
Обращение к этимологии может дать одну полезную ручку для запоминания того, что означают технические термины (для меня это хорошо работает), но следует избегать использования этимологии для их обоснования . Многие термины (в статистике и в других местах) правильно понимаются только при тщательном изучении их математических определений. Понимание этого ответа требует четкого понимания предполагаемого использования слов и фраз, таких как «определяется», «устанавливается внешне», «изменяется на», «внешние силы» и «частично [a] функция», ни одно из которых не является немедленным очевидный или однозначный.
whuber
6

Xϵ=0Xϵ^=0

Y=α+βX+γZ+noiseZXXnoise0ZXlog(ex)=x, Это просто математический факт. Это опущенная переменная смещение.

IYXIXXY

Это две ступени наименьших квадратов, которые почти совпадают с IV.

generic_user
источник
Как я понимаю, 2SLS - это не один из способов сделать IV, извинения, если я ошибаюсь.
user25901
2SLS стандартные ошибки неверны. Я забыл, почему или как, но вы, вероятно, найдете что-нибудь, если будете гуглить "Стандартные ошибки IV 2SLS". Большинство программных пакетов реализуют 2sls с методом решения (t (z)% *% (x)% *% t (z)% *% y
generic_user
1
X^X
Спасибо. Я был только что из прикладной эконометрики, когда написал это.
generic_user
-1

В регрессии мы хотим отразить количественное влияние независимой переменной (которая, как мы полагаем, является экзогенной и не зависимой от чего-то другого) от идентифицированной зависимой переменной. Мы хотим знать, какое чистое влияние экзогенная переменная оказывает на зависимую переменную - это означает, что независимая переменная не должна иметь никакого влияния от другой переменной. Быстрый способ выяснить, страдает ли регрессия от проблемы эндогенности, - проверить корреляцию между независимой переменной и остатками. Но это просто грубая проверка, в противном случае необходимо провести формальные тесты эндогенности.

Амон Магвиро
источник
3
Это не правда Корреляция между остатками и объясняющими переменными из регрессии равна нулю по построению. Это не тест на эндогенность.
Энди
E[ϵX]=0ϵy=b0+b1x+ϵϵE[e^i|x]=0e^iE[e^i|x]=0b^0+b^1x