Гамма GLM с логарифмической связью против гауссовой GLM с логарифмической связью против LM с логарифмическим преобразованием

13

Из моих результатов видно, что GLM Gamma отвечает большинству допущений, но стоит ли это значительного улучшения по сравнению с лог-преобразованным LM? Большая часть литературы, которую я нашел, посвящена пуассоновским или биномиальным GLM. Я нашел статью ОЦЕНКА ОБОБЩЕНИЙ ОБОБЩЕННОЙ ЛИНЕЙНОЙ МОДЕЛИ С ИСПОЛЬЗОВАНИЕМ Рандомизации очень полезной, но в ней отсутствуют реальные графики, используемые для принятия решения. Надеюсь, кто-то с опытом может направить меня в правильном направлении.

Я хочу смоделировать распределение моей переменной ответа T, распределение которой приведено ниже. Как видите, это положительная асимметрия
Действительный XHTML.

У меня есть два категориальных фактора: МЕТ и CASEPART.
Обратите внимание, что это исследование в основном носит ознакомительный характер, по сути служит экспериментальным исследованием, прежде чем теоретизировать модель и выполнить DoE вокруг нее.

У меня есть следующие модели в R, с их диагностическими графиками:

LM.LOG<-lm(log10(T)~factor(METH)+factor(CASEPART),data=tdat)

Действительный XHTML
Действительный XHTML

GLM.GAMMA<-glm(T~factor(METH)*factor(CASEPART),data=tdat,family="Gamma"(link='log'))

Действительный XHTML
Действительный XHTML

GLM.GAUS<-glm(T~factor(METH)*factor(CASEPART),data=tdat,family="gaussian"(link='log'))

Действительный XHTML
Действительный XHTML

Я также получил следующие P-значения с помощью теста Шапиро-Уилкса на остатки:

LM.LOG: 2.347e-11  
GLM.GAMMA: 0.6288  
GLM.GAUS:  0.6288  

Я рассчитал значения AIC и BIC, но если я прав, они мало что мне говорят из-за разных семейств в GLM / LM.

Кроме того, я отметил крайние значения, но я не могу классифицировать их как выбросы, так как нет четкой «особой причины».

TLJ
источник
1
Стоит отметить, что все три модели являются мультипликативными в том смысле, что увеличение регрессора связано с относительным изменением типичного ответа. Для двух логарифмических GLM «типичное» означает среднее арифметическое, в то время как для логарифмированной LM мы говорим о геометрических средних. Таким образом, способ, которым вы хотите интерпретировать эффекты и прогнозы, также является движущим фактором для выбора модели, не только имея идеальные остаточные графики (это все равно данные, управляемые).
Майкл М
@MichaelMayer - Спасибо за ответ, очень полезно. Не могли бы вы немного рассказать, как именно выбор влияет на интерпретацию? Или укажете мне направление?
TLJ
@ Marcinthebox - я просмотрел этот вопрос перед публикацией. Точно не отвечает на мой вопрос очень кратко.
TLJ

Ответы:

19

Ну, совершенно ясно, что логарифмическое соответствие Гауссу не подходит; есть сильная гетероскедастичность в остатках. Итак, давайте возьмем это из рассмотрения.

Осталось логнормально против гаммы.

T

Любая модель выглядит примерно одинаково подходящей в этом случае. Они оба имеют дисперсию, пропорциональную квадрату среднего значения, поэтому картина разброса остатков по сравнению с подгонкой аналогична.

Низкий выброс будет лучше соответствовать гамме, чем логарифмическому (наоборот, для высокого выброса). При данном среднем значении и дисперсии логнормальное значение является более искаженным и имеет более высокий коэффициент вариации.

exp(μ)σ2

Смотрите также здесь и здесь для некоторых связанных обсуждений.

Glen_b - Восстановить Монику
источник
1
@Gleb_b этот ответ очень полезен для моего анализа. У меня есть несколько вопросов. (1) Во-первых, является ли это «они оба имеют дисперсию, пропорциональную квадрату среднего значения ...», основанную на графике зависимости остаточного и подогнанного? (2) И действительно ли это «низкий выброс будет соответствовать немного лучше гамме ... при заданном среднем значении и дисперсии ...» на основе графика qq? (3) Из того, что я понимаю, у glm (например, гамма, пуассона и отрицательного бинома) нет предположения о нормальности остатков и однородности дисперсии. Если так, то почему графическое построение остатков в сравнении с установленным и нормальным графиком qq будет иметь значение для диагностики?
татами
2
Это достаточно обширный вопрос, чтобы быть совершенно новым вопросом или даже несколькими (большинство из которых уже даны на нашем сайте!) - 1. частью модели. 2. Нет, это общие факты о распределениях. 3. Исправьте, что они не являются нормальными, однако остатки, используемые в графике QQ, являются (внутренне изученными) остатками отклонения, которые - особенно в случае гамма-излучения - обычно имеют тенденцию быть очень близкими к нормальному распределению (я написал ответ, объясняющий, почему в некоторая точка) и должна иметь по существу постоянную дисперсию. Некоторое отклонение от нормы не является неожиданным, но существенным отклонением ... ctd
Glen_b
2
ctd ... from normality (при условии, что другие графики в порядке) может указывать на проблему с допущением распределения.
Glen_b