R / Stata пакет для отрицательно усеченного отрицательного бинома GEE?

13

Это мой первый пост. Я действительно благодарен за это сообщество.

Я пытаюсь проанализировать данные продольного счета, которые укорочены до нуля (вероятность того, что переменная отклика = 0 равна 0), а среднее значение! = Дисперсия, поэтому для пуассона было выбрано отрицательное биномиальное распределение.

Функции / команды, которые я исключил:

р

  • Функция gee () в R не учитывает ни усечение нуля, ни отрицательное биномиальное распределение (даже при загруженном пакете MASS)
  • glm.nb () в R не допускает различные корреляционные структуры
  • vglm () из пакета VGAM может использовать семейство posnegbinomial, но оно имеет ту же проблему, что и команда Stata ztnb (см. ниже), в том смысле, что я не могу перефразировать модели, используя независимую структуру корреляции.

Stata

  • Если данные не были продольными, я мог бы просто использовать пакеты Stata ztnb для запуска моего анализа, НО эта команда предполагает, что мои наблюдения независимы.

Я также исключил GLMM по различным методологическим / философским причинам.

На данный момент я остановился на команде Stata xtgee (да, я знаю, что xtnbreg также делает то же самое), которая учитывает как независимые корреляционные структуры, так и семейство отрицательных биномов, но не усечение с нулем. Дополнительным преимуществом использования xtgee является то, что я также могу вычислять значения qic (используя команду qic), чтобы определить наиболее подходящие корреляционные структуры для моих переменных ответа.

Если в R или Stata есть пакет / команда, которая может принимать во внимание 1) семейство nbinomial, 2) GEE и 3) нулевое усечение, я бы хотел знать.

Буду очень признателен за любые ваши идеи. Спасибо.

-Casey

Ирис Цуй
источник

Ответы:

12

Для R на ум приходят два варианта, с которыми я в лучшем случае слабо знаком.

Первый - это psclпакет, который может очень хорошо и гибко вписаться в модели с укороченным надутым воздухом и препятствием. psclПакет предполагает использование sandwichпакета , который включает в себя «Модели-устойчивые стандартные оценки ошибок для поперечного сечения, временных рядов и продольных данных». Таким образом, вы можете подогнать свою модель подсчета, а затем использовать sandwichпакет для оценки подходящей ковариационной матрицы для остатков, принимая во внимание продольный характер данных.

Второй вариант может выглядеть так: geepackпакет выглядит так, как будто он может делать то, что вы хотите, но только для отрицательной биномиальной модели с известной тэтой, поскольку он будет соответствовать любому типу GLM, который glm()может выполнять функция R (поэтому используйте функцию семейства из MASS) ,

Третий вариант поднял голову: gamlssи это дополнительный пакет gamlss.tr. Последний включает функцию, gen.trun()которая может gamlss()гибко превращать любое из поддерживаемых распределений в усеченное распределение - вы можете указать, например, усечение влево с отрицательным биномиальным распределением 0. gamlss()сама включает в себя поддержку случайных эффектов, которые должны заботиться о продольном характере данных. Однако не сразу понятно, нужно ли вам использовать хотя бы одну гладкую функцию ковариации в модели или вы можете просто моделировать все как линейные функции, как в GLM.

Восстановить Монику - Дж. Симпсон
источник
Я считаю, что пакет pscl подходит только для моделей с нулевой раздувкой и препятствиями. Модели препятствий включают в себя как компонент с усеченным слева, так и компонент с препятствиями, прошедший цензуру справа. Я не знаю, как или даже смогу ли я запустить модель препятствий без компонента препятствий, но я посмотрю на пакет sandwick. Что касается пакета geepack, похоже, он имеет ту же проблему, что и пакет gee; Когда я указываю семейство «absolute.binomial» (из MASS), без указания тэты, он запрашивает тэту. Однако, когда я указываю тэта-значение, оно выдает ошибку, говоря, что это неопознанное семейство.
Ирис Цуй
@Casey - извините, я неправильно понял ваши требования по поводу усечения нуля. Позор, что geepack не работает с этой семейной функцией. Если я подумаю о чем-то еще, я обновлю здесь.
Восстановить Монику - Г. Симпсон
@Casey Я добавил примечание о gamlssпакете, который может соответствовать требованиям R.
Восстановить Монику - Дж. Симпсон
Принятие вашего ответа из-за многочисленных предложений по ресурсам и функциям, которые улучшили мое понимание. Похоже, что 'gamlss' мог бы решить мою проблему, но, поскольку я на самом деле не являюсь статистиком, в настоящее время у меня нет знаний по математике и времени, чтобы открыть эту банку с червями прямо сейчас (но возможно со временем буду). Как упоминалось в другом комментарии, по крайней мере для моих данных, кажется, что игнорирование нулевого усечения не сильно изменит мои оценки и ошибки std. Я полагаю, что для моей целевой аудитории nbinomial GEE вполне подойдет. Благодарность!
Ирис Цуй
9

Хм, хороший первый вопрос! Я не знаю о пакете, который соответствует вашим точным требованиям. Я думаю, что Stata's xtgee - хороший выбор, если вы также укажете vce(robust)опцию для выдачи стандартных ошибок Хубера-Уайта или vce(bootstrap)если это практично. Любой из этих вариантов обеспечит постоянную оценку стандартных ошибок, несмотря на неправильную спецификацию модели, которую вы получите, игнорируя нулевое усечение.

Это оставляет вопрос о том, какой эффект игнорирование нулевого усечения окажет на оценку (и) точки, которая вас интересует. Стоит провести быстрый поиск, чтобы увидеть, есть ли соответствующая литература по этому вопросу в целом, то есть не обязательно в контексте GEE - я бы подумал, что вы вполне можете с уверенностью предположить, что любые такие результаты будут актуальны и в случае GEE. Если вы ничего не можете найти, вы всегда можете смоделировать данные с нулевым усечением и известными оценками эффекта и оценить смещение путем моделирования.

универсальный
источник
1
Я убедился, чтобы оценить надежные стандартные ошибки. Кроме того, в книге Zuur et al., 2009, на странице 261 «Модели смешанных эффектов и расширения в экологии с R», на странице 261 они упоминают: «Если среднее значение переменной отклика относительно велико, игнорируя проблему усечения, затем применяя обобщенная линейная модель (GLB) Пуассона или отрицательного биномиального (NB) вряд ли вызовет проблему ». К счастью, средние значения моих переменных отклика велики, поэтому я чувствую себя немного более комфортно, чтобы деприоритизировать нулевое усечение по сравнению с GEE и негбиномиальными аспектами моих регрессий.
Ирис Цуй
Похоже, вы уже знаете об этой теме больше, чем я! Или кто-то еще на этом сайте, судя по отсутствию других ответов.
OneStop
Это немного невероятно; кто знал, что данные о разбросе по продольному счету будет так трудно проанализировать (без проведения GLMM, который я даже не изучал)? Если бы только мои данные были завышены, это была бы другая история.
Ирис Цуй
5

У меня была та же проблема в моей диссертации. В Stata я просто создал собственную программу .ado с двумя вызовами xtgee.

Для этого я посчитал полезными слайды / программы «Моделирование расходов на здравоохранение» от Партха Деб, Уилларда Мэннинга и Эдварда Нортона. Они не говорят о продольных данных, но это полезная отправная точка.

Кит
источник
1

Я искал ответы на интерпретацию glmmADMB и увидел твой пост. Я знаю, что это было давно, но у меня может быть ответ.

Посмотрите на пакет glmmADMB при использовании моделей с препятствиями. Вы должны разделить анализ ваших данных на два: один из них обрабатывает только нулевые данные. Вы можете добавить смешанные эффекты и выбрать дистрибутив. Условие состоит в том, что данные должны быть заполнены нулями, и я не знаю, соответствовало ли это вашим требованиям! В любом случае, я надеюсь, что вы узнали это давно!

Marta
источник