Применяется ли процедура фиксированных эффектов Мундлака для логистической регрессии с использованием макетов?

12

У меня есть набор данных с 8000 кластеров и 4 миллиона наблюдений. К сожалению, мое статистическое программное обеспечение, Stata, работает довольно медленно при использовании функции панельных данных для логистической регрессии: xtlogitдаже с 10% -ной выборкой.

Однако при использовании непанельной logitфункции результаты появляются гораздо раньше. Поэтому я могу извлечь выгоду из использования logitизмененных данных, которые учитывают фиксированные эффекты.

Я полагаю, что эта процедура придумана как «процедура фиксированных эффектов Мундлака» (Мундлак, Y. 1978. Объединение данных временных рядов и сечений. Эконометрика, 46 (1), 69-85.)

Я нашел интуитивное объяснение этой процедуры в статье Antonakis J., Bendahan S., Jacquart P. & Lalive R. (2010). О предъявлении причинных претензий: обзор и рекомендации. Руководство Ежеквартально, 21 (6). 1086-1120. Я цитирую:

Один из способов обойти проблему пропущенных фиксированных эффектов и по-прежнему включать переменные уровня 2 - это включить в расчетную модель кластерные средние всех ковариат уровня 1 (Mundlak, 1978). Среднее значение кластера может быть включено в качестве регрессоров или вычтено (то есть, среднее значение кластера) из ковариаты уровня 1. Средство кластера является инвариантным внутри кластера (и варьируется между кластерами) и позволяет согласованно оценивать параметры уровня 1 так же, как если бы фиксированные эффекты были включены (см. Rabe-Hesketh & Skrondal, 2008).

Поэтому центрирование по кластеру кажется идеальным и практичным для решения моей вычислительной задачи. Тем не менее, эти статьи, похоже, ориентированы на линейную регрессию (OLS).

Применим ли этот метод центрирования по кластеру для «репликации» бинарных логистических регрессий с фиксированными эффектами?

Более технический вопрос, который должен привести к тому же самому ответу: будет ли xtlogit depvar indepvars, feс набором данных A равен logit depvar indepvarsс набором данных B, когда набор данных B является среднецентрированной версией набора данных A?

Еще одна трудность, с которой я столкнулся при таком центрировании кластеров, заключается в том, как справиться с манекенами. Поскольку манекены имеют значение 0 или 1, идентичны ли они при регрессии случайных и фиксированных эффектов? Разве они не должны быть «центрированы»?

Том
источник

Ответы:

9

Первое различие или внутри преобразований, таких как уклонение, недоступно в моделях, таких как logit, потому что в случае нелинейных моделей такие приемы не удаляют ненаблюдаемые фиксированные эффекты. Даже если бы у вас был меньший набор данных, в который было бы возможно включить N-1 отдельных манекенов для прямой оценки фиксированных эффектов, это привело бы к смещенным оценкам, если измерение времени ваших данных не велико. Следовательно, устранение фиксированных эффектов в панели логита не следует ни разнице, ни унижению, а возможно только благодаря функциональной форме логита. Если вас интересуют подробности, вы можете взглянуть на эти заметки Седербома на стр. 30 (объяснение причин, по которым уклонение / первое различие в logit / probit не помогает) и на странице 42 (введение в панель оценки logit).

Другая проблема заключается в том, что xtlogitмодели панельных логитов в целом не оценивают непосредственно фиксированные эффекты, которые необходимы для расчета предельных эффектов. Без них будет очень неудобно интерпретировать ваши коэффициенты, которые могут разочаровать после нескольких часов работы модели.

С таким большим набором данных и ранее упомянутыми концептуальными трудностями логита панели FE я бы придерживался линейной вероятностной модели. Я надеюсь, что этот ответ не разочарует вас, но есть много веских причин для того, чтобы давать такие советы: LPM намного быстрее, коэффициенты можно интерпретировать сразу (это особенно верно, если у вас есть эффекты взаимодействия в вашей модели, потому что интерпретация их коэффициенты в нелинейных моделях изменяются!), фиксированные эффекты легко контролируются, и вы можете откорректировать стандартные ошибки для автокорреляции и кластеров без увеличения времени оценки без причины. Надеюсь, это поможет.

Энди
источник
1
Это не решение, но это ответ. Спасибо :)
Том
1
Небольшое замечание: p20 из этих слайдов соответствует вашему случаю, но модель «коррелированных случайных эффектов» с поправкой Mundlak описана на p47 и, по-видимому, не содержит таких предостережений.
conjugateprior
1

Я полагаю, что условный логит («clogit» в Stata), это альтернативный оценщик панели логита с фиксированным эффектом.

http://www3.nd.edu/~rwilliam/stats3/Panel03-FixedEffects.pdf

Francesco
источник
5
Добро пожаловать на сайт! Я думаю, что это неприемлемый ответ, поскольку на самом деле вопрос заключается в следующем: как избежать условной (фиксированной) логистической регрессии с помощью модифицированной логистической регрессии в поперечном сечении с целью ускорения оценки. Как ваша ссылка указывает (в верхней части страницы 3), «мы можем использовать либо Stata«s clogitкоманда или xtlogit, feкоманда , чтобы сделать фиксированные эффекты логит анализ. Оба дают одинаковые результаты. (На самом деле, я считаю , на xtlogit, feсамом деле вызывает clogit.)»The ОП уже знал xtlogit, feпо предпоследнему абзацу.
Рандель
0

Эллисон обсуждали эту проблему в Allison, (2009), «Модели регрессии с фиксированными эффектами», с.32f.

Эллисон утверждает, что невозможно оценить безусловную модель с максимальной вероятностью. Это так, потому что модели становятся смещенными из-за «проблемы побочных параметров». Вместо этого он рекомендует использовать модель условного логита (Чемберлен, 1980). Это достигается путем обусловливания функции правдоподобия числом событий, наблюдаемых для каждого человека.

Печеньковый монстр
источник