Назначение функции связи в обобщенной линейной модели

35

Какова цель функции связи как компонента обобщенной линейной модели? Зачем нам это нужно?

Википедия утверждает:

Может быть удобно сопоставить область функции связи с диапазоном среднего значения функции распределения

В чем преимущество этого?

regression generalized-linear-model link-function irls Крис
источник

37

А.Дж. Добсон указала в своей книге следующие вещи :

Линейная регрессия предполагает, что переменная отклика нормально распределена. Обобщенные линейные модели могут иметь переменные отклика с распределениями, отличными от нормального распределения - они могут быть даже категориальными, а не непрерывными. Таким образом, они не могут находиться в диапазоне от до . $-\infty$ $+\infty$
Отношение между ответом и объясняющими переменными не обязательно должно быть простой линейной формы.

Вот почему нам нужна функция связи как компонент обобщенной линейной модели. Он связывает среднее значение зависимой переменной , которое равно с линейным членом таким образом, что диапазон нелинейно преобразованного среднего находится в диапазоне от до . Таким образом, вы можете фактически сформировать линейное уравнение = $Y_i$ $E(Y_i)=\mu_i$ $x_i^T\beta$ $g(\mu_i)$ $-\infty$ $+\infty$ $g(\mu_i)$ $x_i^T\beta$ и использовать метод наименьших квадратов с повторным взвешиванием для оценки максимального правдоподобия параметров модели.

Блен Ваан
источник

18

Это может помочь вам прочитать мой ответ здесь: Разница между логит-моделями и пробит-моделями , в которых достаточно подробно рассматриваются ссылки GLiM.

@BlainWaan и Wikipedia ясно описывают основной способ объяснения этой проблемы: фактический параметр (например, $p$ для биномиального ответа - т. е. логистической регрессии) не может варьироваться от отрицательной бесконечности до положительной бесконечности, но ваш прогнозируемый параметр будет. Вторая важная причина заключается в том, что без надлежащим образом указанной связи отклонения ваших остатков не будут постоянными (требуемое допущение для вывода с помощью оценки наименьших квадратов) или будут обрабатываться правильно.

Еще один способ решения этой проблемы заключается в том, что использование идентификационной ссылки (это еще один способ сказать / подумать о том, чтобы «не использовать» функцию ссылки) означает, что вы неправильно думаете о своей ситуации, что неизбежно искажает картину ваша ситуация, которую вы выводите из своего анализа. Например, если только истинные вероятности, которые вы пытаетесь смоделировать (опять-таки для ситуаций логистической регрессии), существуют только в середине диапазона (где они довольно линейны), и диапазон $X$ вы изучаете сосредоточено на точке, где $p=.5$ ваши беты будут предвзятыми и ваши предсказанные $\hat p_{x_i}$ Это будет далеко от истинных ценностей. Кроме того, ваши выводы будут искажены (например, частота ошибок типа I не будет равна $\alpha$ ).

Gung - Восстановить Монику
источник

Есть ли функция ссылки сделать остаточное распределение нормально ?

ABC

@ABC, нет, функция link просто связывает структурную часть модели с (преобразованием) прогнозируемого параметра. В GLiM также необходимо указать распределение ответов и дисперсию.

gung - Восстановить Монику

Назначение функции связи в обобщенной линейной модели

Ответы: