Я читаю очень интересную статью Селлерса и Шмуэли о регрессионных моделях для подсчета данных. В начале (стр. 944) они цитируют McCullaugh и Nelder (1989), утверждая, что отрицательная биномиальная регрессия непопулярна и имеет проблематичную каноническую связь. Я нашел упомянутый отрывок, и он говорит (стр. 374 из М и N)
«Похоже, в приложениях мало используется отрицательное биномиальное распределение; в частности, использование канонической связи проблематично, поскольку делает линейный предиктор функцией параметра функции дисперсии».
На предыдущей странице они дают эту функцию ссылки как
и дисперсионная функция
Распределение дается как
Я обнаружил, что регрессия NB довольно широко используется (и рекомендуется в нескольких книгах). Все эти варианты использования и рекомендации ошибочны?
Каковы последствия этой проблемной ссылки?
источник
Ответы:
Я оспариваю утверждения с нескольких точек зрения:
i) Хотя каноническая ссылка вполне может быть «проблематичной», не сразу очевидно, что кто-то заинтересуется этой ссылкой - тогда как, например, лог-ссылка в Пуассоне часто бывает удобной и естественной, и поэтому люди часто заинтересованы в этом. Тем не менее, в случае Пуассона люди смотрят на другие функции связи.
Поэтому мы не должны ограничивать наше рассмотрение канонической ссылкой.
«Проблемная связь» сама по себе не является особенно убедительным аргументом против отрицательной биномиальной регрессии.
Ссылка на журнал, например, кажется вполне разумным выбором в некоторых отрицательных биномиальных приложениях, например, в случаях, когда данные могут быть условно пуассоновскими, но существует неоднородность по скорости Пуассона - ссылка на лог может быть почти такой же интерпретируемой как в случае с Пуассоном.
Для сравнения, я использую Gamma GLM достаточно часто, но я не помню, чтобы (за исключением примеров из учебников) когда-либо использовал его каноническую ссылку - я использую ссылку журнала почти всегда, так как это более естественная ссылка для решения проблем. Я склонен работать с
ii) «Мало что было сделано ... в приложениях», возможно, было почти правдой в 1989 году, но я не думаю, что это стоит сейчас. [Даже если он действительно действовал сейчас, это не аргумент, что это плохая модель, только то, что он не был широко использован - что может случиться по разным причинам.]
Отрицательная биномиальная регрессия стала более широко использоваться, поскольку она стала более доступной, и я вижу, что сейчас она используется в приложениях гораздо более широко. В R, например, я использую функции,
MASS
которые поддерживают его (и соответствующая книга, Venables и Ripley's, Modern Applied Statistics с S , использует отрицательную биномиальную регрессию в некоторых интересных приложениях) - и я использовал некоторые функциональные возможности в нескольких других пакетах еще до того, как я использовал его в R.Я бы использовал негативную биномиальную регрессию чаще, даже раньше, если бы она была легко доступна для меня; Я ожидаю, что то же самое верно для многих людей - поэтому аргумент о том, что он использовался мало, кажется скорее аргументом.
Хотя можно избежать отрицательной биномиальной регрессии (скажем, с помощью моделей с избыточным рассеянием Пуассона) или ряда ситуаций, когда на самом деле не имеет большого значения, что вы делаете , есть различные причины, по которым это не совсем удовлетворительно.
Например, когда мой интерес больше касается интервалов прогнозирования, чем оценок коэффициентов, тот факт, что коэффициенты не меняются, может не быть достаточной причиной, чтобы избежать отрицательного бинома.
Конечно, есть еще другие варианты, которые моделируют дисперсию (например, Конвей-Максвелл-Пуассон, который является предметом упомянутой вами статьи); в то время как это, безусловно, варианты, иногда бывают ситуации, когда я вполне счастлив, что отрицательный бином является достаточно хорошей «моделью» в качестве модели для моей проблемы.
Я действительно так не думаю! Если бы они были, это должно было стать достаточно ясно к настоящему времени. Действительно, если Маккалла и Нелдер продолжали чувствовать то же самое, у них не было ни недостатка возможностей, ни недостатка форумов, на которых можно было бы уточнить оставшиеся вопросы. Нелдер скончался (2010), но МакКаллах, видимо, все еще рядом .
Если этот короткий отрывок из МакКаллага и Нелдера - это все, что у них есть, я бы сказал, что это довольно слабый аргумент.
Я думаю, что проблема в основном связана с функцией дисперсии и функцией связи, которая связана, а не связана (как в случае почти всех других основных семейств GLM, широко используемых), что делает интерпретацию в масштабе линейного предиктора менее простой (это не значит, что это единственная проблема; я думаю, что это главная проблема для практикующего). Это не большая часть сделки.
Для сравнения я вижу, что в последнее время модели Твиди используются гораздо более широко, и я не вижу людей, обеспокоенных тем, что появляется как в функции дисперсии, так и в канонической связи (и в большинстве случаев даже не сильно беспокоится). о канонической ссылке).п
Ничто из этого не должно ничего отнимать от моделей Конвея-Максвелла-Пуассона (предмет статьи Селлерса и Шмуэли), которые также становятся все более широко используемыми - я, конечно, не хочу принимать участие в отрицательном биноме против СОМ. -Пуассон стрельба матч.
Я просто не рассматриваю это как одно или другое, так же как (сейчас я говорю более широко) я занимаю чисто байесовскую или чисто частую позицию по статистическим проблемам. Я буду использовать все, что мне кажется лучшим выбором в конкретных обстоятельствах, в которых я нахожусь, и каждый выбор имеет свои преимущества и недостатки.
источник