Как бороться с чрезмерной дисперсией в пуассоновской регрессии: квази-правдоподобие, отрицательный биномиальный GLM или случайный эффект на уровне субъекта?

Пуассоновская регрессия - это просто GLM:

Люди часто говорят о параметрическом обосновании применения регрессии Пуассона. На самом деле, пуассоновская регрессия - это просто GLM. Это означает, что регрессия Пуассона оправдана для любого типа данных (подсчетов, оценок, результатов экзаменов, бинарных событий и т. Д.), Когда выполняются два предположения: 1) журнал среднего результата представляет собой линейную комбинацию предикторов и 2) дисперсия от результата равна среднему . Эти два условия соответственно называются средней моделью и отношением средней дисперсии.

Предположение о средней модели можно несколько ослабить, используя сложный набор корректировок для предикторов. Это хорошо, потому что функция link влияет на интерпретацию параметров; тонкость интерпретации делает разницу между ответом на научный вопрос и полным уходом от потребителей вашего статистического анализа. В другом посте SE я обсуждаю полезность лог-преобразований для интерпретации.

Оказывается, однако, что второе предположение (отношение средней дисперсии) имеет сильные последствия для вывода. Когда отношение средней дисперсии не соответствует действительности, оценки параметров не смещены . Однако стандартные ошибки, доверительные интервалы, p-значения и прогнозы неверно откалиброваны. Это означает, что вы не можете контролировать ошибку типа I и у вас может быть неоптимальная мощность.

Что если среднее отклонение можно ослабить, чтобы отклонение было просто пропорционально среднему? Отрицательная биномиальная регрессия и квазипуассоновая регрессия делают это.

Модели квазипуассона

Модели квазипуассона не основаны на вероятности. Они максимизируют «квазиликоновое правдоподобие», которое является вероятностью Пуассона с точностью до пропорциональной постоянной. Эта пропорциональная постоянная оказывается дисперсией. Дисперсия считается неприятностьюпараметр. Хотя подпрограмма максимизации дает оценку параметра помех, эта оценка представляет собой просто артефакт данных, а не какое-либо значение, обобщающее совокупность. Дисперсия служит только для «сжатия» или «расширения» SE параметров регрессии в зависимости от того, является ли дисперсия пропорционально меньшей или большей, чем среднее значение. Поскольку дисперсия рассматривается как параметр помех, квазипуассонные модели обладают множеством устойчивых свойств: данные могут фактически быть гетероскедастичными (не удовлетворяющими предположению о пропорциональной средней дисперсии) и даже демонстрировать небольшие источники зависимости, а средняя модель не должна быть точным, но 95% ДИ для параметров регрессии асимптотически верны.Если ваша цель анализа данных состоит в том, чтобы измерить связь между набором параметров регрессии и результатом, квазипуассоновские модели обычно являются подходящим способом. Ограничение этих моделей состоит в том, что они не могут давать интервалы прогнозирования, остатки Пирсона не могут сказать вам многое о том, насколько точна средняя модель, и информационные критерии, такие как AIC или BIC, не могут эффективно сравнить эти модели с моделями других типов.

Отрицательные биномиальные модели

Наиболее полезно понимать отрицательную биномиальную регрессию как регрессию Пуассона с двумя параметрами. Средняя модель такая же, как в моделях Пуассона и Квазипуассона, где логарифм результата представляет собой линейную комбинацию предикторов. Кроме того, параметр «шкала» моделирует отношение средней дисперсии, где дисперсия просто пропорциональна среднему значению, как и раньше. Однако, в отличие от моделей квазипуассона, этот тип модели является процедурой, основанной на точном правдоподобии, В этом случае дисперсия является фактическим параметром, который имеет некоторую степень обобщения для населения. Это вводит несколько преимуществ по сравнению с квазипуассоном, но, на мой взгляд, предполагает более (непроверяемые) предположения. В отличие от квазипуассоновых моделей: данные должны быть независимыми, средняя модель должна быть правильной, а параметр масштаба должен быть гомоскедастичным во всем диапазоне подгоночных значений для получения правильного вывода. Тем не менее, они могут быть несколько оценены путем проверки остатков Пирсона, и модель дает жизнеспособные интервалы прогнозирования и прогнозирования и поддается сравнению с информационными критериями.

Модели с отрицательной биномиальной вероятностью возникают из смеси Пуассона и Гаммы. То есть существует неизвестная флуктуирующая гамма-переменная, «подающая» в параметр скорости Пуассона. Поскольку подгонка NB GLM основана на вероятности, обычно полезно изложить предварительные мнения о механизме генерирования данных и связать их с вероятностным обоснованием для данной модели. Например, если я тестирую количество гонщиков, выходящих из 24-часовых гонок на выносливость, я мог бы подумать, что все условия окружающей среды - это стрессоры, которые я не измерял, и, таким образом, способствуют риску ДНФ, таким как влажность или холодная температура, влияющая на шину. тяги и, следовательно, риск раскрутки и крушения.

Модели для зависимых данных: GLMMs против GEE

Обобщенные линейные смешанные модели (GLMM) для данных Пуассона не сравниваются с вышеупомянутыми подходами. GLMM отвечают на другой вопрос и используются в разных структурах данных. Здесь источники зависимости между данными измеряются явно. GLMM используют случайные перехваты и случайные наклоны для учета неоднородности на индивидуальном уровне. Это изменяет то, что мы оцениваем. Случайные эффекты изменяют среднее значение и дисперсию, которая моделируется, а не только дисперсию, как обсуждалось выше.

Существует два возможных уровня ассоциации, которые могут быть измерены в зависимых данных: уровень популяции (предельный) и индивидуальный уровень (условный). GLMM утверждают, что измеряют индивидуальные (условные) ассоциации уровня: то есть, учитывая весь набор отдельных участников, вносящих вклад в результат, каково относительное влияние комбинации предикторов. Например, подготовительные курсы к экзаменам могут иметь незначительный эффект для детей, которые посещают примерные школы, тогда как дети в центре города могут получить огромную пользу. Эффект индивидуального уровня в этом случае значительно выше, поскольку дети с преимуществами находятся слишком далеко над кривой с точки зрения положительного воздействия.

Если бы мы наивно применили квазипуассонные или отрицательные биномиальные модели к зависимым данным, NB-модели были бы неправильными, а квазипуассоновские модели были бы неэффективными. GEE, однако, расширяет модель квазипуассона для явного моделирования структур зависимости, таких как GLMM, но GEE измеряет маржинальный (уровень населения) тренд и получает правильные веса, стандартные ошибки и умозаключения.

Пример анализа данных:

Этот пост уже слишком длинный :) В этом уроке есть хорошая иллюстрация первых двух моделей , а также ссылки на дополнительные материалы, если вам интересно. Данные, о которых идет речь, включают в себя привычки гнездования крабов-подков: самки сидят в гнездах, а самцы (спутники) прикрепляются к ней. Исследователи хотели измерить число мужчин, прикрепленных к женщине, в зависимости от характеристик женщины. Я надеюсь, что я подчеркнул, почему смешанные модели несопоставимы: если у вас есть зависимые данные, вы должны использовать правильную модель для вопроса, на который эти зависимые данные пытаются ответить, либо GLM, либо GEE.

Ссылки:

[1] Agresti, категориальный анализ данных, 2-е издание

[2] Diggle, Heagerty, Liang, Zeger, Анализ продольных данных 2-е изд.

Adamo
источник