В чем разница между «функцией связи» и «канонической функцией связи» для GLM

65

В чем разница между терминами «функция связи» и «функция канонического соединения»? Кроме того, есть ли (теоретические) преимущества использования одного над другим?

Например, двоичная переменная ответа может быть смоделирована с использованием многих функций связи, таких как logit , probit и т. Д. Но логит здесь считается «канонической» функцией связи.

logistic generalized-linear-model link-function steadyfish
источник

10

Здесь я подробно обсуждаю функции линковки: Разница между логит-моделями и пробит-моделями , уделяя особое внимание регрессии для бинарной переменной ответа. Хотя лишь небольшая часть этого обсуждения фокусируется на значении «канонической» функции ссылки, тем не менее она может быть полезна для чтения. Обратите внимание, что для понимания различий между преимуществами канонической и неканонической функций связи достаточно углубиться в математику, лежащую в основе GLiM.

gung - Восстановить Монику

68

Приведенные выше ответы более интуитивны, поэтому я стараюсь быть более строгими.

Что такое GLM?

Пусть обозначает набор ответа и мерного ковариатного вектора с ожидаемым значением . Для независимых наблюдений распределение каждого представляет собой экспоненциальное семейство с плотностью Здесь интересующий параметр (естественный или канонический параметр) равен , - параметр масштаба (известный или воспринимаемый как неприятность), а и - известные функции. $Y=(y,\mathbf{x})$ $y$ $p$ $\mathbf{x}=(x_1,\dots,x_p)$ $E(y)=\mu$ $i=1,\dots,n$ $y_i$

f (y_{i}; θ_{i}, ϕ) = \exp {[y_{i} θ_{i} - γ (θ_{i})] / ϕ + τ (y_{i}, ϕ)}

$f(y_i;\theta_i,\phi)=\exp\{[y_i\theta_i-\gamma(\theta_i)]/\phi+\tau(y_i,\phi)\}$

θ_{i}

$\theta_i$

ϕ

$\phi$

γ

$\gamma$

τ

$\tau$

n

$n$ векторы фиксированных входных значений для объясняющих переменных обозначаются через . Мы предполагаем, что входные векторы влияют на (1) только через линейную функцию, линейный предиктор, от которого зависит . Как можно показать, что , эта зависимость устанавливается путем соединения линейного предиктора и через среднее значение. Более конкретно, среднее рассматривается как обратимая и гладкая функция линейного предиктора, т.е.

p

$p$

x_{1}, \dots, x_{p}

$\mathbf{x}_1,\dots,\mathbf{x}_p$

η_{i} = β_{0} + β_{1} x_{i 1} + \dots + β_{p} x_{i p}

$\eta_i=\beta_0+\beta_1x_{i1}+\dots+\beta_px_{ip}$

θ_{i}

$\theta_i$

θ = (γ^{'})^{- 1} (μ)

$\theta=(\gamma')^{-1}(\mu)$

η

$\eta$

θ

$\theta$

μ

$\mu$

g (μ) = η or μ = g^{- 1} (η)

$g(\mu)=\eta\ \textrm{or}\ \mu=g^{-1}(\eta)$ Теперь, чтобы ответить на ваш вопрос:

Функция называется функцией связи. Если функция соединяет , и , что , то эта ссылка называется канонической и имеет вид . $g(\cdot)$ $\mu$ $\eta$ $\theta$ $\eta \equiv\theta$ $g=(\gamma')^{-1}$

Вот и все. Тогда есть ряд желательных статистических свойств использования канонической ссылки, например, достаточной статистикой является с компонентами для , метод Ньютона и оценка Фишера для обнаружив, что оценщик ML совпадают, эти ссылки упрощают вывод MLE, они гарантируют, что некоторые свойства линейной регрессии (например, сумма остатков равна 0), сохраняются или они гарантируют, что остается в диапазоне выходной переменной , $X'y$ $\sum_i x_{ij} y_i$ $j = 1, \dots, p$ $\mu$

Следовательно, они, как правило, используются по умолчанию. Однако обратите внимание, что нет априорной причины, по которой эффекты в модели должны быть аддитивными в масштабе, указанном этой или любой другой ссылкой.

Момо
источник

5

+1, это действительно хороший ответ, @Momo. Мне было труднее читать некоторые уравнения, когда они были похоронены в абзацах, поэтому я «заблокировал» их, используя двойные знаки доллара (то есть $ $). Я надеюсь, что все в порядке (если нет, вы можете откат, с моими извинениями).

gung - Восстановить Монику

1

@Momo, оригинальный вопрос здесь, однако, включает в себя то, о чем спрашивал Вей, так что стоит отметить, что на него пока нет четкого ответа.

Glen_b

1

Надеюсь, я правильно понимаю вашу путаницу: в экспоненциальной семье, о которой вы говорите, канонический параметр - это а каноническая ссылка - когда есть когда . Как и (если вычислить ожидаемое значение первой производной по функции правдоподобия), единственный случай, когда появляется, когда .

θ

$\theta$

η = θ

$\eta=\theta$

g (μ) = θ

$g(\mu)=\theta$

θ = (γ^{'})^{- 1} (μ)

$\theta=(\gamma')^{-1}(\mu)$

θ

$\theta$

θ \equiv μ

$\theta \equiv \mu$

g (.) = (γ^{'})^{- 1} (.)

$g(.)=(\gamma')^{-1}(.)$

Momo

1

Большое спасибо. Используя предыдущий пример, мы имеем это . Следовательно . Как вы сказали (я просто перефразирую), у нас есть если - каноническая ссылка, то есть logit. Тогда у нас будет . Таким образом, равенство между и предиктором существует, только если мы используем функцию канонического связывания.

γ^{'} (θ) = π = \frac{e x p (θ)}{1 + e x p (θ)}

$\gamma'(\theta) = \pi = \frac{exp(\theta)}{1+exp(\theta)}$

(γ^{'})^{- 1} (.) = logit(.)

$(\gamma')^{-1}(.) = \text{logit(.)}$

η = θ

$\eta = \theta$

g (.)

$g(.)$

θ = l o g i t (π) = η

$\theta = logit(\pi) = \eta$

θ

$\theta$

η

$\eta$

Druss2k

2

Кажется, что в ключевом предложении ответа есть опечатка: не следует ли прочитать «если функция соединяет и st »?

μ

$\mu$

θ

$\theta$

η \equiv θ

$\eta \equiv \theta$

Лев Алексеев

16

Гунг привел хорошее объяснение: каноническая ссылка обладает особыми теоретическими свойствами минимальной достаточности. Это означает, что вы можете определить условную логит-модель (которую экономисты называют моделью с фиксированным эффектом), обусловливая количество результатов, но вы не можете определить условную пробитную модель, потому что нет достаточной статистики для использования с пробитной связью.

Stask
источник

Можете ли вы рассказать немного о минимальной достаточности? По приведенному выше объяснению мы все еще можем определить модель пробита, верно? Это точно не будет функция канонической ссылки, но какой вред использование неканонической функции ссылки.

pikachuchameleon

9

Вот небольшая диаграмма, вдохновленная классом MIT 18.650, который я считаю весьма полезным, поскольку он помогает визуализировать отношения между этими функциями. Я использовал ту же запись, что и в посте @ momo:

$\gamma(\theta)$ - функция, создающая кумулянтный момент
$g(\mu)$ - функция связи

Таким образом, функция связи связывает линейный предиктор со средним значением и должна быть монотонно возрастающей, непрерывно дифференцируемой и обратимой. $g$

Диаграмма позволяет легко переходить из одного направления в другое, например:

η = g (γ (θ))

$\eta = g \left( \gamma(\theta)\right)$

θ = γ^{' - 1} (g^{- 1} (η))

$\theta = \gamma'^{-1}\left( g^{-1}(\eta)\right)$

Каноническая функция связи

Другой способ понять, что Момо строго описал, состоит в том, что, когда - каноническая функция связи, то композиция композиции это тождество и поэтому мы получаем $g$

γ^{- 1} \circ g^{- 1} = {(g \circ γ^{'})}^{- 1} = I

$\gamma^{-1} \circ g^{-1}= \left( g \circ \gamma' \right)^{-1} = I$

θ = η

$\theta = \eta$

Ксавье Бурре Сикотт
источник

1

Ответы выше уже охватили то, что я хочу сказать. Просто чтобы прояснить несколько моментов как исследователь машинного обучения:

Функция Link является ничем иным, как обратной функцией активации. Например, logit - это обратная сигмоида, а probit - обратная кумулятивная функция распределения Гаусса.
Если мы возьмем параметр обобщенной линейной модели только в зависимости от , где является вектором веса, а является входным параметром, то функция связи называется канонической. $w^T x$ $w$ $x$

Вышеприведенное обсуждение не имеет ничего общего с экспоненциальным семейством, но хорошее обсуждение можно найти в PRML-книге Кристофера Бишопа, глава 4.3.6.

Гоцзюнь Чжан
источник

В чем разница между «функцией связи» и «канонической функцией связи» для GLM

Ответы:

Каноническая функция связи