GLM: проверка выбора распределения и функции связи

14

У меня есть обобщенная линейная модель, которая использует гауссово распределение и функцию логарифмической связи. После подгонки модели я проверяю невязки: график QQ, невязки против прогнозируемых значений, гистограмма невязок (признавая, что необходима должная осторожность). Все выглядит хорошо. Мне кажется, это говорит о том, что выбор гауссовского распределения был вполне разумным. Или, по крайней мере, то, что остатки соответствуют распределению, которое я использовал в моей модели.

Q1 : Было бы слишком далеко утверждать, что это подтверждает мой выбор распределения?

Я выбрал функцию связи журнала, потому что моя переменная ответа всегда положительна, но я хотел бы получить какое-то подтверждение того, что это был хороший выбор.

Q2 : Существуют ли какие-либо тесты, такие как проверка остатков для выбора распределения, которые могут поддержать мой выбор функции ссылки? (Выбор функции ссылки кажется мне немного произвольным, поскольку единственные рекомендации, которые я могу найти, довольно расплывчаты и неоправданны, вероятно, по уважительной причине.)

regression generalized-linear-model link-function Lyngbakr
источник

2

Q1. Вы можете попробовать другие дистрибутивы и посмотреть, работают ли они лучше. Q2. Выбор ссылки в журнале для обеспечения положительных прогнозов не кажется мне произвольным. Это обоснование. Но вы, в свою очередь, можете проверить, получили ли вы отрицательные прогнозы с идентификационной ссылкой и имеющимися у вас данными. Итог: вы не можете быть уверены, что другие модели не будут лучше, пока вы не попробуете их.

Ник Кокс

1

Y

$Y$

\exp (η)

$\exp(\eta)$

R^{2}

$R^2$

2

R^{2}

$R^2$

13

Это вариант часто задаваемого вопроса о том, можете ли вы утверждать нулевую гипотезу. В вашем случае нулевым будет то, что невязки являются гауссовыми, а визуальный осмотр ваших графиков (qq-графиков, гистограмм и т. Д.) Составляет «тест». (Для общего обзора вопроса об утверждении нулевого значения, это может помочь прочитать мой ответ здесь: почему статистики говорят, что незначительный результат означает «вы не можете отклонить нулевое значение», а не принимаете нулевую гипотезу? ) В вашем конкретном случае вы можете сказать, что графики показывают, что ваши остатки соответствуют вашему предположению о нормальности, но они не «подтверждают» это предположение.
Вы можете подгонять свою модель, используя различные функции связи, и сравнивать их, ~~но нет проверки отдельной функции связи в отдельности~~ (это, очевидно, неверно, см. Ответ @ Glen_b ). В моем ответе « Разница между логит-моделями и пробитами» (которые, возможно, стоит прочитать, хотя это не совсем одно и то же), я утверждаю, что функции связи следует выбирать на основе:
1. Знание распределения ответов,
2. Теоретические соображения и
3. Эмпирическое соответствие данным.
$Y$ $Y$ становясь отрицательным, оно также придает особую форму криволинейным отношениям. Стандартный график зависимости невязок от подгоночных значений (возможно, с наложением лессового соответствия) поможет вам определить, является ли внутренняя кривизна в ваших данных разумным соответствием конкретной кривизны, налагаемой ссылкой журнала. Как я уже упоминал, вы также можете попробовать любое другое преобразование, соответствующее вашим теоретическим критериям, которое вы хотите, и напрямую сравнить эти два соответствия.

Gung - Восстановить Монику
источник

16

Было бы слишком далеко утверждать, что это подтверждает мой выбор распределения?

Это отчасти зависит от того, что вы подразумеваете под «подтвердить», но я бы сказал «да, это заходит слишком далеко» так же, как вы не можете сказать «нулевое значение показано как истинное» (особенно с нулевыми точками, но, по крайней мере, в некотором смысле в более общем смысле). Вы можете только сказать «хорошо, у нас нет убедительных доказательств того, что это неправильно». Но в любом случае мы не ожидаем, что наши модели будут идеальными, они модели . Как говорит Box & Draper, важно то, « насколько неправильно они должны быть, чтобы не быть полезными? »

Любое из этих двух предыдущих предложений:

Мне кажется, это говорит о том, что выбор гауссовского распределения был вполне разумным. Или, по крайней мере, то, что остатки соответствуют распределению, которое я использовал в моей модели.

гораздо точнее описать то, что указывает ваша диагностика - не то, что модель Гаусса с лог-связью была правильной - но что она была разумной или соответствовала данным.

Я выбрал функцию связи журнала, потому что моя переменная ответа всегда положительна, но я хотел бы получить какое-то подтверждение того, что это был хороший выбор.

Если вы знаете, что оно должно быть положительным, то его значение должно быть положительным. Разумно выбрать модель, которая хотя бы соответствует этому. Я не знаю, если это хороший выбор (может быть, есть гораздо лучший выбор), но это разумная вещь; это может быть моей отправной точкой. [Однако, если переменная сама по себе обязательно положительная, моей первой мыслью будет скорее Гамма с лог-линком, чем гауссовская. «Обязательно положительный» предполагает как асимметрию, так и дисперсию, которая изменяется со средним значением.]

Q2: Существуют ли какие-либо тесты, такие как проверка остатков для выбора распределения, которые могут поддержать мой выбор функции ссылки?

Звучит так, будто вы имеете в виду не «тест», как в «формальном тесте гипотезы», а «диагностическая проверка».

В любом случае ответ - да, есть.

Один формальный тест гипотезы Pregibon в Благость теста связи [1].

Это основано на встраивании функции связи в семейство Бокса-Кокса для проверки гипотезы о параметре Бокса-Кокса.

См. Также краткое обсуждение теста Прегибона в Breslow (1996) [2] ( см. С. 14 ).

$\eta=g(\mu)$ $x$

$r^W_i=(y_i-\hat{\mu}_i)\left(\frac{\partial \eta}{\partial\mu}\right)$

(к которому я бы склонялся для этой оценки), или, возможно, рассматривая отклонения от линейности в частичных невязках, с одним графиком для каждого предиктора (см., например, Хардин и Хильбе, Обобщенные линейные модели и расширения, 2-е изд., с. 4.5 .4 р54, для определения),

$\quad r^T_{ki}=(y_i-\hat{\mu}_i)\left(\frac{\partial \eta}{\partial\mu}\right)+x_{ik}\hat{\beta}_k$

$\qquad\:=r^W_i+x_{ik}\hat{\beta}_k$

В случаях, когда данные допускают преобразование с помощью функции связи, вы можете искать линейность таким же образом, как и с линейной регрессией (хотя у вас может быть асимметрия и, возможно, гетероскедастичность).

В случае категориальных предикторов выбор функции связывания больше зависит от удобства или интерпретируемости, соответствие должно быть одинаковым (поэтому нет необходимости оценивать их).

Вы также можете основать диагностику на подходе Прегибона.

Они не составляют исчерпывающий список; Вы можете найти другие обсуждения диагностики.

[Тем не менее, я согласен с оценкой Ганга, что выбор функции связи должен изначально основываться на таких вещах, как теоретические соображения, где это возможно.]

Смотрите также некоторые обсуждения в этом посте , которые хотя бы частично актуальны.

[1]: Pregibon, D. (1980),
"Тесты добротности связей для обобщенных линейных моделей",
Журнал Королевского статистического общества. Серия C (Прикладная статистика) ,
вып. 29, № 1, с. 15-23.

[2]: Breslow NE (1996),
«Обобщенные линейные модели: проверка предположений и усиление выводов»,
Statistica Applicata 8 , 23-41.
PDF

Glen_b - Восстановить Монику
источник

GLM: проверка выбора распределения и функции связи

Ответы: