Семейство GLM представляет собой распределение переменной ответа или остатков?

Я обсуждал это с несколькими сотрудниками лаборатории, и мы обратились к нескольким источникам, но до сих пор не получили ответа:

Когда мы говорим, что у GLM есть семейство пуассонов , скажем, мы говорим о распределении остатков или переменной отклика?

Спорные вопросы

Читая эту статью, она утверждает, что допущения GLM - это статистическая независимость наблюдений, правильная спецификация функции связи и дисперсии (которая заставляет меня думать об остатках, а не о переменной отклика), правильная шкала измерения для переменной отклика и отсутствие чрезмерного влияния отдельных точек
На этот вопрос есть два ответа с двумя точками каждый, первый из которых говорит об остатках, а второй - о переменной ответа, что это?
В этом посте , говоря о предположениях, они заявляют: « Распределение остатков может быть другим, например, биномиальным »
В начале этой главы они говорят, что структура ошибок должна быть Пуассона, но остатки, несомненно, будут иметь положительные и отрицательные значения, как это может быть Пуассона?
Этот вопрос, который часто цитируется в таких вопросах, как этот, чтобы дублировать их, не имеет принятого ответа
На этот вопрос ответы говорят об ответе, а не об остатках
В этом описании курса из Университета Pensilvania они говорят о переменной ответа в допущениях, а не в невязках

generalized-linear-model residuals assumptions Дерек Коркоран
источник

Ответы:

Семьи аргумент GLM моделей определяет семейство распределения для условного распределения ответа , а не из остатков (за исключением квази -моделей).

Посмотрите на этот способ: для обычной линейной регрессии мы можем написать модель как Это означает, что ответ имеет нормальное распределение (с постоянной дисперсией), но ожидание отличается для каждого . Следовательно, условное распределение ответа является нормальным распределением (но разным для каждого ). Другой способ написания этой модели - где каждый распространяется .

Y_{i} \sim Normal (β_{0} + x_{i}^{T} β, σ^{2}) .

$Y_i \sim \text{Normal}(\beta_0+x_i^T\beta, \sigma^2).$

Y_{i}

$Y_i$

i

$i$

i

$i$

Y_{i} = β_{0} + x_{i}^{T} β + ϵ_{i}

$Y_i = \beta_0+x_i^T\beta + \epsilon_i$

ϵ_{i}

$\epsilon_i$

Normal (0, σ^{2})

$\text{Normal}(0, \sigma^2)$

Таким образом, для нормального семейства дистрибутивов оба описания верны (при правильной интерпретации). Это потому, что для нормальной линейной модели мы имеем разделение в модели систематической части ( ) и части возмущения ( ), которые просто добавляются. Но для других семейных функций это разделение невозможно ! Нет даже четкого определения того, что означает остаточный (и по этой причине, много разных определений «остаточный»). $\beta_0+x_i^T\beta$ $\epsilon_i$

Поэтому для всех остальных семейств мы используем определение в стиле первого отображенного уравнения выше. То есть условное распределение ответа. Таким образом, нет, остатки (независимо от того, что определено) в регрессии Пуассона не имеют распределения Пуассона.

Къетил б Халворсен
источник

В дополнение к превосходному ответу Kjetil, я хотел добавить несколько конкретных примеров, чтобы прояснить значение условного распределения , которое может быть немного неуловимым понятием.

Допустим, вы взяли случайную выборку из 100 рыб из озера, и вам интересно посмотреть, как возраст рыбы влияет на несколько переменных результата:

Вес рыбы (Вес);
Является ли рыба длиннее 30 см;
Количество рыбьей чешуи.

Первая переменная результата является непрерывной, вторая - двоичной (0 = рыба НЕ длиннее 30 см; 1 = рыба длиннее 30 см), а третья переменная счета.

Простая линейная регрессия

Как возраст влияет на вес? Вы собираетесь сформулировать простую модель линейной регрессии вида:

Weight = β_{0} + β_{1} * Age + ϵ

$\text{Weight} = \beta_0+\beta_1*\text{Age} + \epsilon$

где 's независимы, идентично распределены, следуя нормальному распределению со средним 0 и стандартным отклонением . В этой модели предполагается, что среднее значение переменной веса для всех рыб в озере, имеющих один и тот же возраст, изменяется линейно с возрастом. Условное среднее значение представлено как . Это называется условным, потому что это средний вес для всех рыб в озере того же возраста . (Безусловным средним весом будет средний вес всех рыб в озере, независимо от их возраста.) $\epsilon$ $\sigma$ $\beta_0 + \beta_1*\text{Age}$

Простая бинарная логистическая регрессия

Как Возраст влияет на длину рыбы более 30 см? Вы собираетесь сформулировать простую бинарную модель логистической регрессии в виде:

l o g (\frac{p}{1 - p}) = β_{0} + β_{1} * Age

$log(\frac{p}{1-p}) = \beta_0+\beta_1*\text{Age}$

где обозначает условную вероятность того, что рыба данного возраста длиннее 30см. В этой модели предполагается, что условное среднее переменной «длина рыбы больше 30 см», соответствующей всем рыбам в озере, имеющим одинаковый возраст, предполагается линейно изменяющимся с возрастом после подачи в логит-преобразование. Условно-преобразованное логит-преобразование представляет собой . Эта модель работает, потому что мы предполагаем, что распределение значений переменной «независимо от того, длинна рыбы превышает 30 см» для данного возраста и является распределением Бернулли. Напомним, что для этого распределения дисперсия является функцией среднего значения, поэтому, если мы можем оценить ее среднее значение, мы также можем оценить ее дисперсию. $p$ $\beta_0 + \beta_1*\text{Age}$ $p$ и дисперсия .) См. также https://www.theanalysisfactor.com/link-functions-and-errors-in-logistic-regression/ . $p*(1-p)$

Простая Пуассоновская регрессия

Как возраст влияет на количество рыбьей чешуи? Вы собираетесь сформулировать простую пуассоновскую регрессионную модель вида:

l o g (μ) = β_{0} + β_{1} * Age

$log(\mu) = \beta_0+\beta_1*\text{Age}$

где обозначает условное среднее значение выходной переменной «количество рыбьей чешуи» для рыб данного возраста (то есть ожидаемое количество рыбьей чешуи для всех рыб в озере данного возраста). В этой модели предполагается, что условное среднее значение переменной результата линейно изменяется с возрастом после подачи в логарифмическое преобразование. Условно-преобразованное логарифмическое среднее значение представлено как . Эта модель работает, потому что мы предполагаем, что распределение значений переменной «количество рыбьей чешуи» для всех рыб в озере данного возраста является распределением Пуассона. Напомним, что для этого распределения среднее значение и дисперсия равны, поэтому достаточно смоделировать ее среднее значение. $\mu$ $\beta_0+\beta_1*\text{Age}$

Подводя итог, условное распределение представляет собой распределение значений результата для конкретных значений переменной (ей) предиктора, включенных в модель . Каждый тип модели регрессии, проиллюстрированный выше, налагает определенные предположения о распределении на условное распределение исходной переменной с учетом возраста. На основании этих предположений о распределении модель переходит к формулировке того, как (1) среднее условного распределения изменяется как функция возраста (простая линейная регрессия), (2) логит-преобразованное среднее условного распределения изменяется как функция age (простая бинарная логистическая регрессия) или (3) среднее значение логического преобразования условного распределения зависит от возраста.

Для каждого типа модели можно определить соответствующие остатки с целью проверки модели. В частности, могут быть определены остатки Пирсона и отклонения для моделей логистической и пуассоновской регрессии.

Изабелла Гемент
источник

ОТЛИЧНЫЕ ответы. Спасибо вам обоим. Я никогда не осознавал, что «фактический» остаток никогда не бывает действительно явным в общей структуре GLM, как в случае нормального распределения.

mlofton

@mlofton: Спасибо за добрые слова. Отличный вопрос предложил отличные ответы. Мы все пользуемся этим обменом знаниями.

Изабелла Гемент

Я использовал GLM долгое время (год или два, например, 10 лет назад), и это всегда было моим замешательством, но я никогда не знал, что это мое замешательство, пока его не спросили так четко и не объяснили так ясно. Поэтому иногда путаница означает невозможность задать правильный вопрос. Еще раз спасибо.

mlofton

Вы абсолютно правы! Путаница - это часть обучения - когда мы какое-то время боремся с чем-то, мы начинаем понимать это лучше, когда внезапно натыкаемся на четкое объяснение.

Изабелла Гемент

Я рад и благодарю вас за отличный ответ @IsabellaGhement

Патрик,