Разница между данными панели и смешанной моделью

14

Я хотел бы знать разницу между групповым анализом данных и анализом смешанных моделей. Насколько мне известно, как данные панели, так и смешанные модели используют фиксированные и случайные эффекты. Если так, почему у них разные имена? Или они синонимы?

Я прочитал следующий пост, который описывает определение фиксированного, случайного и смешанного эффекта, но точно не отвечает на мой вопрос: в чем разница между моделями с фиксированным, случайным и смешанным эффектами?

Я также был бы признателен, если бы кто-нибудь смог отослать меня к краткой (около 200 страниц) ссылке на анализ смешанной модели. Просто добавлю, что я бы предпочел смешанный справочник по моделированию независимо от программной обработки. Преимущественно теоретическое объяснение смешанного моделирования.

mixed-model references panel-data Бета
источник

Связанный: stats.stackexchange.com/questions/171313/…

RightsKewed

Связанный: stats.stackexchange.com/questions/238214

амеба говорит Восстановить Монику

22

Как данные панели, так и данные модели смешанного эффекта имеют дело с случайными переменными с двойной индексацией . Первый индекс для группы, второй для отдельных лиц в группе. Для панельных данных вторым индексом обычно является время, и предполагается, что мы наблюдаем людей с течением времени. Когда время является вторым индексом для модели со смешанным эффектом, модели называются продольными моделями. Модель смешанного эффекта лучше всего понимается в терминах двухуровневых регрессий. (Для простоты изложения допустим только одну объясняющую переменную) $y_{ij}$

Первый уровень регрессии заключается в следующем

y_{i j} = α_{i} + x_{i j} β_{i} + ε_{i j} .

$y_{ij}=\alpha_i+x_{ij}\beta_i+\varepsilon_{ij}.$

Это просто объясняется как индивидуальная регрессия для каждой группы. Регрессия второго уровня пытается объяснить различия в коэффициентах регрессии:

α_{i} = γ_{0} + z_{i 1} γ_{1} + u_{i}

$\alpha_i=\gamma_0+z_{i1}\gamma_1+u_i$

β_{i} = δ_{0} + z_{i 2} δ_{1} + v_{i}

$\beta_i=\delta_0+z_{i2}\delta_1+v_i$

Когда вы заменяете второе уравнение на первое, вы получаете

y_{i j} = γ_{0} + z_{i 1} γ_{1} + x_{i j} δ_{0} + x_{i j} z_{i 2} δ_{1} + u_{i} + x_{i j} v_{i} + ε_{i j}

$y_{ij}=\gamma_0+z_{i1}\gamma_1+x_{ij}\delta_0+x_{ij}z_{i2}\delta_1+u_i+x_{ij}v_i+\varepsilon_{ij}$

Фиксированные эффекты - это то, что исправлено, это означает, что . Случайные эффекты: и . $\gamma_0,\gamma_1,\delta_0,\delta_1$ $u_i$ $v_i$

Теперь для панельных данных терминология меняется, но вы все равно можете найти общие точки. Модель случайных эффектов на панели данных аналогична модели смешанных эффектов с

α_{i} = γ_{0} + u_{i}

$\alpha_i=\gamma_0+u_i$

β_{i} = δ_{0}

$\beta_i=\delta_0$

с моделью становится

y_{i t} = γ_{0} + x_{i t} δ_{0} + u_{i} + ε_{i t},

$y_{it}=\gamma_0+x_{it}\delta_0+u_i+\varepsilon_{it},$

где - случайные эффекты. $u_i$

Наиболее важным различием между моделью смешанных эффектов и панельными моделями данных является обработка регрессоров . Для моделей со смешанными эффектами они являются неслучайными переменными, тогда как для панельных моделей данных всегда предполагается, что они случайные. Это становится важным при указании модели фиксированных эффектов для данных панели. $x_{ij}$

Для модели смешанного эффекта предполагается, что случайные эффекты и не зависят от а также от и , что всегда верно, когда и фиксированы. Если мы допустим стохастический это становится важным. Таким образом, модель случайных эффектов для данных панели предполагает, что не коррелирует с . Но модель с фиксированным эффектом, которая имеет ту же форму $u_i$ $v_i$ $\varepsilon_{ij}$ $x_{ij}$ $z_i$ $x_{ij}$ $z_i$ $x_{ij}$ $x_{it}$ $u_i$

y_{i t} = γ_{0} + x_{i t} δ_{0} + u_{i} + ε_{i t},

$y_{it}=\gamma_0+x_{it}\delta_0+u_i+\varepsilon_{it},$

позволяет корреляцию и . Тогда акцент делается исключительно на последовательную оценку . Это делается путем вычитания отдельных средств: $x_{it}$ $u_i$ $\delta_0$

y_{i t} - {\bar{y}}_{i .} = (x_{i t} - {\bar{x}}_{i .}) δ_{0} + ε_{i t} - {\bar{ε}}_{i .},

$y_{it}-\bar{y}_{i.}=(x_{it}-\bar{x}_{i.})\delta_0+\varepsilon_{it}-\bar{\varepsilon}_{i.},$

и используя простую OLS для возникающей проблемы регрессии. Алгебраически это совпадает с проблемой регрессии фиктивной переменной наименьших квадратов, где мы предполагаем, что являются фиксированными параметрами. Отсюда и название модели с фиксированными эффектами. $u_i$

В эконометрических данных панели есть много историй, связанных с фиксированными эффектами и терминологией случайных эффектов, которые я пропустил. По моему личному мнению, эти модели лучше всего объясняются в « Эконометрическом анализе данных поперечного сечения и панелей » Вулдриджа . Насколько я знаю, в модели смешанных эффектов такой истории нет, но, с другой стороны, я пришел из эконометрического фона, поэтому могу ошибаться.

mpiktas
источник

Когда вы подставили (2) и (3) в (1), я думаю, что что-то испортилось. Я полагаю, что это должно быть если я что-то упустил.

. . . + x_{i j} v_{i} + u_{i} + ε_{i j}

$...+x_{ij}v_{i}+u_{i}+\varepsilon_{ij}$

Дмитрий Владимирович Мастеров

Это объяснение прекрасно! Большое спасибо за то, что приложили все усилия для того, чтобы дать мне такую замечательную экспозицию. Просто хочу спросить одну вещь. Что ты имеешь в виду под 2 уровнем регрессии?

бета

2

@ Ари, регрессия второго уровня - это регрессия для коэффициентов регрессии регрессии первого уровня. Регрессия первого уровня пытается объяснить различия внутри группы, тогда как регрессия второго уровня пытается объяснить различия между группами. Это разделение искусственное, но оно мне нравится, потому что оно, по крайней мере, кажется мне естественным. Этот тип деления также используется в иерархических байесовских моделях.

mpiktas

Это очень хороший ответ, +1 давным-давно. Единственное, что мне здесь не хватает, это некоторое обсуждение того, как коэффициент "модели случайных эффектов" в эконометрике. Вы объясняете это для «модели с фиксированным эффектом», но не комментируете случайную. Я был бы очень признателен, если бы вы могли что-то добавить по этому поводу.

δ_{0}

$\delta_0$

говорит амеба, восстанови Монику

3

Я понимаю, что вы ищете текст, который описывает смешанную теорию моделирования без ссылки на программный пакет.

Я бы порекомендовал многоуровневый анализ, введение в базовое и расширенное многоуровневое моделирование Тома Снидерса и Роела Боскера, около 250 стр. В конце у него есть глава по программному обеспечению (которая несколько устарела), но остальная часть - очень доступная теория.

Я должен сказать, однако, что я согласен с рекомендацией выше для многоуровневых и продольных моделей с использованием Stata Софи Рабе-Хескет и Андерс Скрондал. Книга очень теоретическая, а программный компонент действительно является хорошим дополнением к содержательному тексту. Я обычно не использую Stata, и текст у меня на столе, и я нахожу его очень хорошо написанным. Это однако намного дольше, чем 200pp.

Следующие тексты написаны действующими экспертами в данной области и будут полезны для тех, кто хочет получить больше информации об этих методах (хотя они не соответствуют конкретно вашему запросу): [Я не могу связать их с этим, потому что я новичок пользователь, извините]

Hoox, Joop (2010). Многоуровневый анализ, методы и приложения.

Гельман А. и Хилл Дж. (2006) Анализ данных с использованием регрессионных и многоуровневых / иерархических моделей.

Сингер, Дж. (2003) Прикладной продольный анализ данных: моделирование изменений и возникновения событий

Raudenbush SW и Bryk A., S. (2002). Иерархические линейные модели: приложения и методы анализа данных

Люк, Дуглас, (2004). Многоуровневое моделирование

Я бы также поддержал упомянутый выше текст Вулдриджа, а также текст R, а в Центре многоуровневого моделирования Bistol University есть куча учебных пособий и информации.

Сыграй еще раз
источник

Спасибо Playitagain! Это очень полезная информация. Даже твое имя интересно :)

бета

2

Я тоже удивился разнице между ними, и, недавно обнаружив ссылку на эту тему, я понимаю, что «панельные данные» - это традиционное название для наборов данных, которые представляют «сечение или группу людей, которые периодически опрашиваются на протяжении данный промежуток времени ". Таким образом, «панель» - это групповая структура в наборе данных, и наличие такой группы наиболее естественный способ анализа данных этого типа - через смешанный подход.

Хорошим справочником (независимо от того, говорите ли вы R или нет) о моделировании смешанных эффектов является черновик (?) Будущей книги Дугласа Бейтса ( lme4: Моделирование смешанных эффектов с помощью R ).

илы
источник

1

Спасибо ИЛС за ссылку! Но проблема все еще остается.

бета

2

@mpiktas дал исчерпывающий ответ. Я также хотел бы предложить чтение главы 7 документации для Plm пакета в R . Обсуждение авторов о разнице между смешанными моделями и панельными данными стоит прочитать.

KarthikS
источник

1

Если вы используете Stata, многоуровневые и продольные модели с использованием Stata от Sophia Rabe-Hesketh и Anders Skrondal были бы хорошим выбором. В зависимости от того, что именно вас интересует, 200 страниц могут быть правильными.

Димитрий Васильевич Мастеров
источник

Спасибо Димитрию за ссылку. Но, к сожалению, я не использую STATA. Я в основном использую SAS, а иногда и R. Но все равно спасибо.

бета

2

Я слышал хорошие новости о wiley.com/WileyCDA/WileyTitle/productCd-0470073713.html , но сам не читал.

Дмитрий Владимирович Мастеров

Спасибо Димитрий! Это выглядит действительно многообещающе. Преимущество в том, что вы задаете вопрос, а не глядите в глаза, в том, что вы получаете действительно хорошие результаты :)

бета,

1

По моему опыту, обоснование использования «эконометрики панели» заключается в том, что оценки «фиксированных эффектов» панели можно использовать для управления различными формами пропущенного переменного смещения.

Тем не менее, можно выполнить этот тип оценки в многоуровневой модели, используя подход типа Мундлака , т.е. включив групповые средства в качестве дополнительных регрессоров. Этот подход устраняет корреляцию между ошибочным членом и потенциальными опущенными факторами на уровне группы, выявляя коэффициент «внутри». Однако по неизвестной мне причине это обычно не делается в прикладных исследованиях. Эти слайды и этот документ обеспечивают разработку.

EddieMcGoldrick
источник

(+1) Социолог часто интерпретирует групповые средства как контекстуальные эффекты (хотя это чаще для вложенных данных поперечного сечения, чем для панельных данных временных рядов). Мне нужно будет прочитать соответствующую заметку. У Manski (1993) ( PDF здесь ) есть статья, которая показывает, как такие контекстные эффекты часто не идентифицируются. «По причинам, которые этого не делают», я подозреваю, что между практикой социальных наук так же много различий, как и все остальное, это может быть хороший вопрос.

Энди W

Разница между данными панели и смешанной моделью

Ответы: