Я работаю с большим набором данных (конфиденциально, поэтому я не могу поделиться слишком много),
Может быть возможно создать небольшой набор данных, который имеет некоторые общие характеристики реальных данных без имен переменных или каких-либо фактических значений.
и пришел к выводу, что отрицательный биномиальный регресс будет необходимо. Я никогда не проводил регрессию GLM прежде, и я не могу найти четкую информацию о том, что предположения. Они одинаковы для MLR?
Очевидно, нет! Вы уже знаете, что предполагаете, что ответ условно отрицательный, а не условно нормальный. ( Некоторые предположения являются общими. Независимость, например.)
Позвольте мне сначала поговорить о GLM более широко.
GLM включают множественную регрессию, но обобщают несколькими способами:
1) условное распределение ответа (зависимая переменная) принадлежит экспоненциальному семейству , которое включает в себя пуассоновское, биномиальное, гамма, нормальное и множество других распределений.
2) средний ответ связан с предикторами (независимыми переменными) через функцию связи . Каждое семейство распределений имеет связанную функцию канонического связывания - например, в случае Пуассона каноническим соединением является лог . Канонические ссылки почти всегда используются по умолчанию, но в большинстве программ у вас обычно есть несколько вариантов в каждом варианте дистрибутива. Для бинома канонической связью является логит (линейный предиктор моделируетжурнал( р1 - р), лог-шансы на успех, или «1»), а для гаммы каноническая ссылка обратная - но в обоих случаях часто используются другие функции связи.
Так что, если ваш ответ был Y и ваши предикторы были Икс1 а также Икс2с регрессией Пуассона со ссылкой на журнал, которую вы могли бы иметь для вашего описания того, как среднее значение Y связано с Икс«S:
E ( Yя) = μя
журналμя= ηя (η называется «линейным предиктором», и здесь функция связи журнал, символ г часто используется для представления функции ссылки)
ηя= β0+ β1Икс1 я+ β2Икс2 я
3) дисперсия отклика не постоянна, а работает через дисперсионную функцию (функцию от среднего значения, возможно, умноженного на масштабный параметр). Например, дисперсия Пуассона равна среднему значению, а для гаммы она пропорциональна квадрату среднего. (Квазираспределения позволяют в некоторой степени отделить функцию дисперсии от предполагаемого распределения)
-
Итак, какие предположения общего с тем, что вы помните из MLR?
Независимость все еще там.
Гомоскедастичность больше не предполагается; дисперсия явно является функцией среднего значения и поэтому в целом зависит от предикторов (поэтому, хотя модель, как правило, гетероскедастична, гетероскедастичность принимает определенную форму).
Линейность: модель по-прежнему линейна по параметрам (т. Е. Линейный предиктор Иксβ), но ожидаемый ответ не связан с ними линейно (если только вы не используете функцию идентификационной ссылки!).
Распределение ответа существенно более общее
Интерпретация результатов во многом похожа; вы все равно можете посмотреть на оценочные коэффициенты, поделенные на их стандартные ошибки, например, и интерпретировать их аналогично (они асимптотически нормальны - z-тест Вальда), но люди все еще называют их t-коэффициентами, даже когда нет теории, которая ихT-распространен в общем).
Сравнения между вложенными моделями (с помощью «таблиц anova», подобных настройкам) немного отличаются, но похожи (включая асимптотические тесты хи-квадрат). Если вам удобны AIC и BIC, их можно рассчитать.
Подобные виды диагностических дисплеев обычно используются, но их сложнее интерпретировать.
Большая часть вашей интуиции множественной линейной регрессии будет перенесена, если вы будете помнить о различиях.
Вот пример того, что вы можете сделать с GLM, что вы не можете сделать с помощью линейной регрессии (в действительности, большинство людей для этого используют нелинейную регрессию, но GLM проще и приятнее) в обычном случае - Y является нормальным, моделируется как функция Икс:
E ( Y) = exp( η) = exp( Xβ) = exp( β0+ β1х ) (то есть лог-ссылка)
Вар ( Y) = σ2
То есть наименьших квадратов соответствует экспоненциальное соотношение между Y а также Икс,
Могу ли я преобразовать переменные таким же образом (я уже обнаружил, что преобразование зависимой переменной - это неправильный вызов, поскольку она должна быть натуральным числом)?
Вы (обычно) не хотите преобразовывать ответ (DV). Иногда вам может потребоваться преобразовать предикторы (IV) для достижения линейности линейного предиктора.
Я уже определил, что отрицательное биномиальное распределение поможет с чрезмерной дисперсией в моих данных (дисперсия около 2000, среднее значение 48).
Да, это может иметь дело с чрезмерной дисперсией. Но будьте осторожны, чтобы не перепутать условную дисперсию с безусловной дисперсией.
Другим распространенным подходом - если немного более капризным и, таким образом, несколько менее удовлетворительным, на мой взгляд, является квазипуассоновская регрессия (избыточная дисперсия Пуассона).
С отрицательным биномом оно входит в экспоненциальное семейство, если вы укажете конкретный один из его параметров (по крайней мере, способ, которым он обычно репараметрируется для GLMS). Некоторые пакеты подойдут, если вы укажете параметр, другие обернут оценку ML этого параметра (скажем, через вероятность профиля) вокруг процедуры GLM, автоматизируя процесс. Некоторые ограничат вас меньшим набором дистрибутивов; Вы не говорите, какое программное обеспечение вы могли бы использовать, поэтому трудно сказать гораздо больше.
Я думаю, что обычно log-link имеет тенденцию использоваться с отрицательной биномиальной регрессией.
Существует целый ряд документов начального уровня (которые можно легко найти через Google), которые проводят базовый анализ Poisson GLM, а затем проводят отрицательный биномиальный анализ данных GLM, но вы можете предпочесть взглянуть на книгу по GLM и, возможно, сначала провести небольшую регрессию Пуассона. просто чтобы привыкнуть к этому.
Некоторые ссылки, которые я нашел полезными для анализа данных с отрицательным биномиальным распределением, в частности (включая допущения в листинге) и GLM / GLMM, как правило:
Бейтс, Д.М., Б. Махлер, Б. Болкер и С. Уокер. 2015. Подгонка линейных моделей со смешанными эффектами с использованием lme4. J. Stat. Программное обеспечение 67: 1-48.
Bolker, BM, ME Brooks, CJ Clark, SW Geange, JR Poulsen, MHH Stevens и J. White. Обобщенные линейные смешанные модели: практическое руководство по экологии и эволюции. Тенденции в экологии и эволюции 127-135.
Zeileis A., C. Keleiber C, S. Jackman 2008. Модели регрессии для данных подсчета в RJ Stat. Програмное обеспечение. 27: 1-25
Зуур А. Ф., Э. Н. Иене, Н. Уокер, А. А. Савельев, Г. М. Смит. 2009. Модели смешанных эффектов и расширения в экологии с Р. Спрингером, Нью-Йорк, США.
источник