У меня есть набор данных с 8000 кластеров и 4 миллиона наблюдений. К сожалению, мое статистическое программное обеспечение, Stata, работает довольно медленно при использовании функции панельных данных для логистической регрессии: xtlogit
даже с 10% -ной выборкой.
Однако при использовании непанельной logit
функции результаты появляются гораздо раньше. Поэтому я могу извлечь выгоду из использования logit
измененных данных, которые учитывают фиксированные эффекты.
Я полагаю, что эта процедура придумана как «процедура фиксированных эффектов Мундлака» (Мундлак, Y. 1978. Объединение данных временных рядов и сечений. Эконометрика, 46 (1), 69-85.)
Я нашел интуитивное объяснение этой процедуры в статье Antonakis J., Bendahan S., Jacquart P. & Lalive R. (2010). О предъявлении причинных претензий: обзор и рекомендации. Руководство Ежеквартально, 21 (6). 1086-1120. Я цитирую:
Один из способов обойти проблему пропущенных фиксированных эффектов и по-прежнему включать переменные уровня 2 - это включить в расчетную модель кластерные средние всех ковариат уровня 1 (Mundlak, 1978). Среднее значение кластера может быть включено в качестве регрессоров или вычтено (то есть, среднее значение кластера) из ковариаты уровня 1. Средство кластера является инвариантным внутри кластера (и варьируется между кластерами) и позволяет согласованно оценивать параметры уровня 1 так же, как если бы фиксированные эффекты были включены (см. Rabe-Hesketh & Skrondal, 2008).
Поэтому центрирование по кластеру кажется идеальным и практичным для решения моей вычислительной задачи. Тем не менее, эти статьи, похоже, ориентированы на линейную регрессию (OLS).
Применим ли этот метод центрирования по кластеру для «репликации» бинарных логистических регрессий с фиксированными эффектами?
Более технический вопрос, который должен привести к тому же самому ответу: будет ли xtlogit depvar indepvars, fe
с набором данных A равен logit depvar indepvars
с набором данных B, когда набор данных B является среднецентрированной версией набора данных A?
Еще одна трудность, с которой я столкнулся при таком центрировании кластеров, заключается в том, как справиться с манекенами. Поскольку манекены имеют значение 0 или 1, идентичны ли они при регрессии случайных и фиксированных эффектов? Разве они не должны быть «центрированы»?
Я полагаю, что условный логит («clogit» в Stata), это альтернативный оценщик панели логита с фиксированным эффектом.
http://www3.nd.edu/~rwilliam/stats3/Panel03-FixedEffects.pdf
источник
Stata
«sclogit
команда илиxtlogit, fe
команда , чтобы сделать фиксированные эффекты логит анализ. Оба дают одинаковые результаты. (На самом деле, я считаю , наxtlogit, fe
самом деле вызываетclogit
.)»The ОП уже зналxtlogit, fe
по предпоследнему абзацу.Эллисон обсуждали эту проблему в Allison, (2009), «Модели регрессии с фиксированными эффектами», с.32f.
Эллисон утверждает, что невозможно оценить безусловную модель с максимальной вероятностью. Это так, потому что модели становятся смещенными из-за «проблемы побочных параметров». Вместо этого он рекомендует использовать модель условного логита (Чемберлен, 1980). Это достигается путем обусловливания функции правдоподобия числом событий, наблюдаемых для каждого человека.
источник