Как решить, какую семью GLM использовать?

У меня есть данные о плотности рыбы, которые я пытаюсь сравнить между несколькими различными методами сбора, у данных есть много нулей, и гистограмма выглядит неопределенной, соответствующей распределению Пуассона, за исключением того, что, как плотности, это не целочисленные данные. Я относительно новичок в GLM и провел последние несколько дней в Интернете, чтобы узнать, как определить, какой дистрибутив использовать, но мне не удалось найти какие-либо ресурсы, которые помогут принять это решение. Пример гистограммы данных выглядит следующим образом:

Я понятия не имею, как выбрать подходящую семью для GLM. Если у кого-нибудь есть какой-либо совет или он может дать мне ресурс, который я должен проверить, это было бы замечательно.

regression distributions generalized-linear-model link-function К. Денни
источник

Что такое "плотность рыбы"? Например, количество рыбы на единицу объема озера?

gung - Восстановить Монику

Это количество рыбы на единицу площади (в данном случае квадратных метров). Мы использовали инструменты визуального осмотра, поэтому он рассчитывается по количеству наблюдаемых рыб, поделенному на площадь, обследованную инструментом. Нам пришлось использовать плотность для стандартизации между инструментами, потому что они исследуют очень разные площади, в противном случае я мог бы просто использовать данные подсчета и придерживаться распределения Пуассона.

С. Денни

Мой совет - вернитесь к данным подсчета и используйте «площадь» в качестве смещения в модели со ссылкой на журнал - но я не знаю, что Пуассон подойдет очень хорошо (это трудно догадаться, так как ваша гистограмма показывает только маргинальное распределение, а не условные распределения, которые будет моделировать GLM ... и в любом случае слишком много бинов, чтобы их можно было использовать). Если Пуассона недостаточно с тяжелыми хвостами / шипами на 0, может сработать отрицательный бином или вам могут понадобиться модели с

нулевым надуванием

Я занимаюсь моделированием Пуассона в течение всего дня, и комментарий Glen_b - канонический ответ.

Пол

Одно дополнение - моделирование Пуассона теоретически оправдано, когда единицы наблюдения (в данном случае, я полагаю, вы подсчитываете отдельных рыб?) Независимо распределены по полю наблюдения, как случайно разбросанные песчинки. При этом допущении могут быть некоторые различия в плотности, но положение одной рыбы не подразумевает ничего относительно положения другой рыбы. Но имейте в виду, что это предположение может быть нарушено на практике, потому что рыба группируется, например, в стаи, и тогда их позиции больше не являются независимыми.

Пол

Ответы:

Семейства GLM включают функцию связи, а также отношение средней дисперсии. Для GLM Пуассона функция связи является логарифмом, а отношение средней дисперсии - тождеством. Несмотря на предупреждения, которые выдает большинство статистических программ, вполне разумно смоделировать взаимосвязь в непрерывных данных, в которой взаимосвязь между двумя переменными является линейной в логарифмическом масштабе, и дисперсия увеличивается в соответствии со средним значением.

По сути, это является обоснованием выбора функции связи и дисперсии в GLM. Конечно, за этим процессом стоит несколько предположений. Вы можете сделать более надежную модель, используя квазилимкость (см. ?quasipoisson) Или надежные стандартные ошибки (см. Пакет sandwichили gee).

Вы правильно отметили, что многие плотности равны 0 в ваших данных. В вероятностных моделях Пуассона целесообразно периодически отбирать 0 в данных, поэтому не обязательно, что эти наблюдения приводят к смещению в ваших оценках скоростей.

Чтобы проверить предположения, лежащие в основе GLM, обычно полезно взглянуть на остатки Пирсона. Они учитывают отношение средней дисперсии и показывают статистику, оказывают ли конкретные наблюдения, такие как эти 0, пагубно влияющие на оценку и результаты.

Adamo
источник

Обобщенная линейная модель определяется в терминах линейного предиктора

η знак равно Икс β

$\eta = \boldsymbol{X} \beta$

$g$

грамм (Е (Y | Икс)) знак равно η

$g(E(Y\,|\,\boldsymbol{X})) = \eta$

$Y$ $\boldsymbol{X} = X_1,X_2,\dots,X_k$ $Y$ $\boldsymbol{X}$

E (Y | X) = μ = g^{- 1} (η)

$E(Y\,|\,\boldsymbol{X} ) = \mu = g^{-1}(\eta)$

поэтому модель может быть определена в вероятностных терминах как

Y | Икс ~ е (μ, σ^{2})

$Y\,|\,\boldsymbol{X} \sim f(\mu, \sigma^2)$

$f$ $f$ $Y$ $Y$ $\boldsymbol{X}$ $Y$ $\boldsymbol{X}$

Если ваш результат является непрерывным и неограниченным, то самым «стандартным» выбором является распределение по Гауссу ( нормальное распределение ), то есть стандартная линейная регрессия (если вы не используете другую функцию связи, чем ссылка идентификации по умолчанию).
Если вы имеете дело с непрерывным неотрицательным результатом, то вы можете рассмотреть гамма-распределение или обратное гауссово распределение .
Если ваш результат дискретный , или, точнее, вы имеете дело со счетами (сколько раз что-то случается за данный промежуток времени), то наиболее распространенным выбором для начала является распределение Пуассона . Проблема с пуассоновским распределением заключается в том, что он довольно негибкий в том, что он предполагает, что среднее значение равно дисперсии. Если это предположение не выполняется, вы можете рассмотреть возможность использования квази-пуассоновского семейства или отрицательного биномиального распределения (см. Также определение дисперсии). параметр для семейства квазипуассонов ).
Если ваш результат является двоичным (нули и единицы), пропорциями «успехов» и «неудач» (значения между 0 и 1) или их количеством , вы можете использовать биномиальное распределение , то есть модель логистической регрессии . Если существует более двух категорий, вы бы использовали мультиномиальное распределение в мультиномиальной регрессии .

С другой стороны, на практике, если вы заинтересованы в построении прогностической модели, вас может заинтересовать тестирование нескольких разных дистрибутивов, и в конце вы узнаете, что один из них дает вам более точные результаты, чем другие, даже если это не так. наиболее «подходящим» с точки зрения теоретических соображений (например, в теории вы должны использовать Пуассона, но на практике стандартная линейная регрессия лучше всего работает для ваших данных).

Тим
источник

Это довольно широкий вопрос, вы спрашиваете, как делать моделирование, и этому посвящены целые книги. Например, при работе с данными подсчета учитывайте следующее:

В дополнение к выбору рассылки, вы должны выбрать функцию ссылки. С данными подсчета вы можете попробовать пуассоновское или отрицательное биномиальное распределение и функцию регистрации ссылок. Причина ссылки на журнал приведена здесь: Хорошее соответствие и какую модель выбрать для линейной регрессии или Пуассона. Если ваши патчи имеют очень разные области, возможно, вы должны включить логарифм площади в качестве смещения, чтобы количество моделей на единицу площади, а не абсолютное на счет. Для объяснения смещения в регрессии данных счетчика см. Когда использовать смещение в регрессии Пуассона?

EDIT

Этот ответ был первоначально отправлен на другой вопрос, который был объединен с этим. Хотя ответ является общим, он прокомментировал особенности набора данных и проблемы, которых больше нет в вопросе. Оригинальный вопрос можно найти по следующей ссылке: Семья в GLM - как выбрать правильный?

Къетил б Халворсен
источник

Мы не можем объединить вопросы, @kjetil, только разработчики могут сделать это (и они действительно не любят). Я все еще могу получить доступ к оригинальной Q, хотя. Возможно, я мог бы скопировать содержимое в новый Q (который был бы создан мной), вы можете скопировать этот A в новый поток, а затем я мог бы закрыть этот поток как его дубликат. Трудно сказать, если это сумасшедшая идея, или она того стоит, но это то, что я могу сделать. У вас есть предпочтения?

gung - Восстановить Монику

@ Gung: Вы можете сделать это, или я могу скопировать информацию из этого вопроса в ответ здесь. Может быть, это лучшее? (Я могу отредактировать то, что кажется из истории редактирования)

kjetil b halvorsen

@kjetilbhalvorsen, во-первых, извините, что все испортил, так как моя идея была объединить потоки, так как они казались почти одинаковыми и оба содержали хорошие ответы. Первоначально у меня сложилось впечатление, что слияние потоков не принесет вреда. Может быть, вы могли бы просто добавить «Например, при работе с данными подсчета ...» во второй абзац? Ваш ответ приятно отвечает общему «Как выбрать семью?» вопрос, так может стоит вообще оставить это ветку?

Тим

@ Я буду редактировать, как вы говорите!

kjetil b halvorsen

Давайте попробуем редактировать. Если вы хотите, чтобы я перепостил Q, пингуйте меня снова. Я собираюсь распустить флаг сейчас.

gung - Восстановить Монику