Я пытаюсь немного заняться статистикой, но я застрял в чем-то. Мои данные следующие:
Year Number_of_genes
1990 1
1991 1
1993 3
1995 4
Теперь я хочу построить регрессионную модель, чтобы на основе данных можно было прогнозировать количество генов за любой данный год. До сих пор я делал это с помощью линейной регрессии, но я немного читал, и это, похоже, не лучший выбор для такого рода данных. Я читал, что регрессия Пуассона может быть полезна, но я не уверен, что использовать. Итак, мой вопрос:
Существует ли общая модель регрессии для такого рода данных? Если нет, что мне нужно сделать, чтобы выяснить, какой метод является наиболее подходящим для использования (с точки зрения того, что я должен узнать о данных)?
regression
count-data
poisson-regression
sequence_hard
источник
источник
Ответы:
Нет, не существует общей модели регрессии данных.
(Так же, как нет общей модели регрессии для непрерывных данных. Обычно предполагается линейная модель с нормально распределенным гомоскедастическим шумом, которая подбирается с использованием обыкновенных наименьших квадратов. Однако гамма-регрессия или экспоненциальная регрессия часто используются для решения различных предположений о распределении ошибок. или модели условной гетероскедастичности, такие как ARCH или GARCH в контексте временных рядов, для борьбы с гетероскедастическим шумом.)
Обычные модели включают в себя пуассоновскую регрессию , как вы пишете, или отрицательную биномиальную регрессию. Эти модели достаточно широко распространены, чтобы найти все виды программного обеспечения, учебных пособий или учебников. Мне особенно нравится отрицательная биноминальная регрессия Хильбе . Этот предыдущий вопрос обсуждает, как выбирать между различными моделями данных подсчета.
Если у вас есть «много» нулей в ваших данных, и особенно если вы подозреваете, что нули могут быть вызваны процессом генерирования данных, отличным от ненулевых (или что некоторые нули происходят из одного DGP, а другие нули и ненулевые приходят из другой DGP), модели с нулевой инфляцией могут быть полезны. Наиболее распространенным является регрессия Пуассона с нулевой раздувкой (ZIP).
Вы также можете просмотреть наши предыдущие вопросы, помеченные как «регрессия» и «подсчет данных» .
РЕДАКТИРОВАТЬ: @MichaelM поднимает хорошую мысль. Это делает вид , как временные ряды данных подсчета. (И недостающие данные за 1992 и 1994 годы подсказывают мне, что в каждом из этих лет должен быть ноль. Если так, включите его. Ноль - это действительное число, и оно несет информацию.) В свете этого я Также предлагаю просмотреть наши предыдущие вопросы, помеченные как «временные ряды», так и «количество данных» .
источник
Распределение «по умолчанию», наиболее часто используемое и описываемое для подсчета данных - это распределение Пуассона . Чаще всего это иллюстрируется на примере первого практического использования:
Распределение Пуассона параметризуется скоростью за фиксированный интервал времени ( - это также среднее значение и дисперсия). В случае регрессии мы можем использовать распределение Пуассона в обобщенной линейной модели с логарифмической функцией связиλ λ
это называется регрессией Пуассона , поскольку можно предположить, что - это скорость распределения Пуассона. Однако обратите внимание, что для лог-линейной регрессии вам не нужно делать такое предположение, а просто используйте GLM с лог-связью с данными без учета. При интерпретации параметров необходимо помнить, что из-за использования преобразования журнала изменения в независимой переменной приводят к мультипликативным изменениям в предсказанных значениях.λ
Проблема с использованием распределения Пуассона для реальных данных состоит в том, что предполагается, что среднее значение равно дисперсии. Нарушение этого предположения называется чрезмерной дисперсией . В таких случаях вы всегда можете использовать квази-пуассоновскую модель, непуассоновскую лог-линейную модель (для больших количеств Пуассона можно аппроксимировать нормальным распределением), отрицательную биномиальную регрессию (тесно связанную с Пуассоном; см. Berk and MacDonald, 2008) или другие модели, описанные Стефаном Колассой .
Для некоторого дружественного введения в регрессию Пуассона вы можете также проверить статьи Lavery (2010) или Coxe, West and Aiken (2009).
Lavery R. (2010). Анимированное руководство: введение в пуассоновскую регрессию. Бумага NESUG, sa04.
Кокс, С., Уэст, С.Г. и Айкен, Л.С. (2009). Анализ данных подсчета: осторожное введение в регрессию Пуассона и ее альтернативы. Журнал оценки личности, 91 (2), 121-136.
Berk, R. & MacDonald, JM (2008). Сверхдисперсия и пуассоновская регрессия. Журнал количественной криминологии, 24 (3), 269-284.
источник
Пуассоновский или отрицательный биномиал - две широко используемые модели для подсчета данных. Я бы выбрал отрицательный бином, поскольку он имеет лучшие предположения для дисперсии.
источник