У меня есть данные о плотности рыбы, которые я пытаюсь сравнить между несколькими различными методами сбора, у данных есть много нулей, и гистограмма выглядит неопределенной, соответствующей распределению Пуассона, за исключением того, что, как плотности, это не целочисленные данные. Я относительно новичок в GLM и провел последние несколько дней в Интернете, чтобы узнать, как определить, какой дистрибутив использовать, но мне не удалось найти какие-либо ресурсы, которые помогут принять это решение. Пример гистограммы данных выглядит следующим образом:
Я понятия не имею, как выбрать подходящую семью для GLM. Если у кого-нибудь есть какой-либо совет или он может дать мне ресурс, который я должен проверить, это было бы замечательно.
Ответы:
Семейства GLM включают функцию связи, а также отношение средней дисперсии. Для GLM Пуассона функция связи является логарифмом, а отношение средней дисперсии - тождеством. Несмотря на предупреждения, которые выдает большинство статистических программ, вполне разумно смоделировать взаимосвязь в непрерывных данных, в которой взаимосвязь между двумя переменными является линейной в логарифмическом масштабе, и дисперсия увеличивается в соответствии со средним значением.
По сути, это является обоснованием выбора функции связи и дисперсии в GLM. Конечно, за этим процессом стоит несколько предположений. Вы можете сделать более надежную модель, используя квазилимкость (см.
?quasipoisson
) Или надежные стандартные ошибки (см. Пакетsandwich
илиgee
).Вы правильно отметили, что многие плотности равны 0 в ваших данных. В вероятностных моделях Пуассона целесообразно периодически отбирать 0 в данных, поэтому не обязательно, что эти наблюдения приводят к смещению в ваших оценках скоростей.
Чтобы проверить предположения, лежащие в основе GLM, обычно полезно взглянуть на остатки Пирсона. Они учитывают отношение средней дисперсии и показывают статистику, оказывают ли конкретные наблюдения, такие как эти 0, пагубно влияющие на оценку и результаты.
источник
Обобщенная линейная модель определяется в терминах линейного предиктора
поэтому модель может быть определена в вероятностных терминах как
Если ваш результат является непрерывным и неограниченным, то самым «стандартным» выбором является распределение по Гауссу ( нормальное распределение ), то есть стандартная линейная регрессия (если вы не используете другую функцию связи, чем ссылка идентификации по умолчанию).
Если вы имеете дело с непрерывным неотрицательным результатом, то вы можете рассмотреть гамма-распределение или обратное гауссово распределение .
Если ваш результат дискретный , или, точнее, вы имеете дело со счетами (сколько раз что-то случается за данный промежуток времени), то наиболее распространенным выбором для начала является распределение Пуассона . Проблема с пуассоновским распределением заключается в том, что он довольно негибкий в том, что он предполагает, что среднее значение равно дисперсии. Если это предположение не выполняется, вы можете рассмотреть возможность использования квази-пуассоновского семейства или отрицательного биномиального распределения (см. Также определение дисперсии). параметр для семейства квазипуассонов ).
Если ваш результат является двоичным (нули и единицы), пропорциями «успехов» и «неудач» (значения между 0 и 1) или их количеством , вы можете использовать биномиальное распределение , то есть модель логистической регрессии . Если существует более двух категорий, вы бы использовали мультиномиальное распределение в мультиномиальной регрессии .
С другой стороны, на практике, если вы заинтересованы в построении прогностической модели, вас может заинтересовать тестирование нескольких разных дистрибутивов, и в конце вы узнаете, что один из них дает вам более точные результаты, чем другие, даже если это не так. наиболее «подходящим» с точки зрения теоретических соображений (например, в теории вы должны использовать Пуассона, но на практике стандартная линейная регрессия лучше всего работает для ваших данных).
источник
Это довольно широкий вопрос, вы спрашиваете, как делать моделирование, и этому посвящены целые книги. Например, при работе с данными подсчета учитывайте следующее:
В дополнение к выбору рассылки, вы должны выбрать функцию ссылки. С данными подсчета вы можете попробовать пуассоновское или отрицательное биномиальное распределение и функцию регистрации ссылок. Причина ссылки на журнал приведена здесь: Хорошее соответствие и какую модель выбрать для линейной регрессии или Пуассона. Если ваши патчи имеют очень разные области, возможно, вы должны включить логарифм площади в качестве смещения, чтобы количество моделей на единицу площади, а не абсолютное на счет. Для объяснения смещения в регрессии данных счетчика см. Когда использовать смещение в регрессии Пуассона?
Этот ответ был первоначально отправлен на другой вопрос, который был объединен с этим. Хотя ответ является общим, он прокомментировал особенности набора данных и проблемы, которых больше нет в вопросе. Оригинальный вопрос можно найти по следующей ссылке: Семья в GLM - как выбрать правильный?
источник