Непрерывное обобщение отрицательного биномиального распределения

24

Отрицательное биномиальное (NB) распределение определяется на неотрицательных целых числах и имеет функцию вероятности массыИмеет ли смысл рассматривать непрерывное распределение на неотрицательных вещественных числах, определенных той же формулой (заменив k \ in \ mathbb N_0 на x \ in \ mathbb R _ {\ ge 0} )? Биномиальный коэффициент может быть переписан как произведение (k + 1) \ cdot \ ldots \ cdot (k + r-1) , которое хорошо определено для любого реального k . Таким образом, у нас будет PDF f (x; r, p) \ propto \ prod_ {i = 1} ^ {r-1} (x + i) \ cdot p ^ {x} (1-p) ^ {r} , В более общем смысле, мы можем заменить биномиальный коэффициент гамма-функциями, учитывая нецелые значения r : kN0xR0(k+1)(k+r-1)kf(x;r,p)r-1i=1(x+i)px(

f(k;r,p)=(k+r1k)pk(1p)r.
kN0xR0(k+1)(k+r1)kг е ( х ; г , р ) & alpha ; Г ( х + г )
f(x;r,p)i=1r1(x+i)px(1p)r.
r
f(x;r,p)Γ(x+r)Γ(x+1)Γ(r)px(1p)r.

Это действительный дистрибутив? У него есть имя? Есть ли у него какое-либо применение? Это может быть какое-то соединение или смесь? Существуют ли замкнутые формулы для среднего значения и дисперсии (и константы пропорциональности в PDF)?

(В настоящее время я изучаю статью, в которой используется модель смеси NB (с фиксированным r=2 ) и подходит к ней через EM. Однако после некоторой нормализации данные являются целыми числами, то есть не целыми числами. Тем не менее, авторы применяют стандартную формулу NB для вычисления вероятность и получить очень разумные результаты, так что, кажется, все работает отлично. Я нашел это очень загадочным. Обратите внимание, что этот вопрос не о NB GLM.)

амеба говорит восстановить монику
источник
1
Разве это не было бы смесью гаммы с параметром масштаба logp ? Если вы развернете многочлен Πi=1r1(x+i) вы просто получите i=2raixi1 , а затем умножите на px то же самое, что и exp{xlogp} , где ai - коэффициент xi1 в полиноме и, конечно, logp<0 , поэтому похоже, что он будет преобразован в средневзвешенное значение гамма-распределений, т. е. смеси.
jbowman
... должно быть, i=1 в сумме выше, на самом деле.
jbowman
2
Поскольку зависит только от параметров, это постоянная, которая может быть поглощена пропорциональностью. Кроме того, также имеет постоянную которая может быть проигнорированным Записывая для , вы спрашиваете о плотности, пропорциональнойЭто идентифицирует как масштабный коэффициент и как параметр формы. Для интеграла это явно смесь гамма-распределений. Однако нет смысла ограничивать целыми числами.( x + r - 1(1p)r1/Γ(r)(x+r1x)=Γ(x+r)/(Γ(r)Γ(x+1))1/Γ(r) ρ = - log ( p ) 0 f ( x ; r , ρ ) = Γ ( x + r )pk=ekρρ=log(p)0ρ r r r
f(x;r,ρ)=Γ(x+r)Γ(x+1)eρx.
ρr rr
whuber
1
@ Правильно. Я на самом деле использую распределение, которое непрерывно на положительных значениях и имеет точечную массу на нуле. Я считаю, что это правильный подход. Но мне предложили использовать непрерывное обобщение NB, которое могло бы иметь ненулевую вероятность в нуле и, следовательно, казалось бы, позволяло иметь дело с точными нулями. Отсюда и мой вопрос.
говорит амеба, восстанови Монику
2
Я думаю, что в этом предложении может быть некоторая путаница: оно, по-видимому, связывает вероятность (то есть то, что имеет точечная масса или распределение NB в нуле) с плотностью вероятности (которая является значением будет). Ненулевая плотность не позволяет вам иметь дело с точными нулями, потому что она все еще предсказывает нулевой шанс того, что любое значение возникнет! 0f(0,θ)0
whuber

Ответы:

21

Это интересный вопрос. Моя исследовательская группа уже несколько лет использует дистрибутив, на который вы ссылаетесь, в нашем общедоступном программном обеспечении для биоинформатики. Насколько я знаю, у дистрибутива нет названия и нет литературы по нему. Хотя статья Чандры и др. (2012), цитируемая Аксакалом, тесно связана, распределение, которое они рассматривают, кажется, ограничивается целочисленными значениями для и они, похоже, не дают явного выражения для pdf.r

Чтобы дать вам некоторое представление, распределение NB очень интенсивно используется в геномных исследованиях для моделирования данных по экспрессии генов, полученных из RNA-seq и связанных с ними технологий. Данные подсчета возникают как число считываний последовательности ДНК или РНК, выделенных из биологического образца, который можно сопоставить с каждым геном. Как правило, есть десятки миллионов считываний из каждого биологического образца, которые сопоставлены примерно с 25 000 генов. В качестве альтернативы можно получить образцы ДНК, из которых показания отображаются в окнах генома. Мы и другие популяризировали подход, в соответствии с которым NB glms подгоняются к считываниям последовательности для каждого гена, а эмпирические байесовские методы используются, чтобы смягчить аналогичные оценки дисперсии (дисперсияϕ=1/r). Этот подход цитировался в десятках тысяч журнальных статей в геномной литературе, поэтому вы можете понять, насколько он используется.

Моя группа поддерживает пакет программного обеспечения edgeR R, Несколько лет назад мы пересмотрели весь пакет, чтобы он работал с дробным числом, используя непрерывную версию NB pmf. Мы просто преобразовали все биномиальные коэффициенты в NB pmf в отношения гамма-функций и использовали его как (смешанный) непрерывный pdf. Мотивация для этого состояла в том, что число считываний последовательности может иногда быть дробным из-за (1) неоднозначного отображения чтений в транскриптом или геном и / или (2) нормализации подсчетов для корректировки технических эффектов. Таким образом, подсчет иногда представляет собой ожидаемый подсчет или расчетный подсчет, а не наблюдаемый подсчет. И, конечно, число считываний может быть ровно нулевым с положительной вероятностью. Наш подход гарантирует, что результаты логического вывода нашего программного обеспечения являются непрерывными в подсчетах, точно совпадая с дискретными результатами NB, когда предполагаемые подсчеты оказываются целыми числами.

Насколько я знаю, для нормализующей константы в pdf нет закрытой формы, равно как и для среднего значения или дисперсии. Если учесть, что для интеграла (постоянная Франсена-Робинсона) нет закрытой формы, становится ясно, что для интеграла от непрерывного не может быть NB pdf тоже. Однако мне кажется, что традиционные формулы среднего и дисперсии для NB должны оставаться хорошими приближениями для непрерывного NB. Кроме того, нормализующая константа должна медленно изменяться в зависимости от параметров и поэтому может игнорироваться как оказывающая незначительное влияние в расчетах максимального правдоподобия.

01Γ(x)dz

Можно подтвердить эти гипотезы путем численного интегрирования. Распределение NB возникает в биоинформатике как гамма-смесь распределений Пуассона (см. Статью с отрицательным биномиальным википедией или McCarthy et al. Ниже). Непрерывное распределение NB возникает просто путем замены распределения Пуассона на его непрерывный аналог pdf для где - нормализующая константа, обеспечивающая интегрирование плотности в 1. Предположим, например, что . Распределение Пуассона имеет pmf, равный указанному выше pdf для неотрицательных целых чисел, и при х0(λ)λ=10λ=10(10)=1/0,999875-1/2

f(x;λ)=a(λ)eλλxΓ(x+1)
x0a(λ)λ=10λ=10среднее значение и дисперсия Пуассона равны 10. Численное интегрирование показывает, что а среднее значение и дисперсия непрерывного распределения составляют от 10 до 4 значимых цифр. Таким образом, нормализующая константа фактически равна 1, а среднее значение и дисперсия почти такие же, как для дискретного распределения Пуассона. Аппроксимация улучшается еще больше, если мы добавим коррекцию непрерывности, интегрируя от до вместо 0. С коррекцией непрерывности все правильно (нормализующая постоянная равна 1, а моменты согласуются с дискретным Пуассоном) до 6 цифры.a(10)=1/0.9998751/2

В нашем пакете edgeR нам не нужно настраивать тот факт, что масса равна нулю, потому что мы всегда работаем с условными логарифмическими правдоподобиями или с логарифмическими разностями правдоподобия, а любые дельта-функции отменяют вычисления. Это типично, кстати, для glms со смешанным распределением вероятностей. В качестве альтернативы, мы могли бы считать, что распределение не имеет массы в нуле, но имеет поддержку, начинающуюся с -1/2 вместо нуля. Любая теоретическая перспектива приводит к одинаковым расчетам на практике.

Хотя мы активно используем непрерывный NB-дистрибутив, мы ничего явно не опубликовали. Статьи, приведенные ниже, объясняют подход NB к геномным данным, но не обсуждают непрерывное распределение NB в явном виде.

Таким образом, я не удивлен, что статья, которую вы изучаете, получила разумные результаты из непрерывной версии NB PDF, потому что это также наш опыт. Ключевым требованием является то, что мы должны правильно моделировать средние и дисперсии, и это будет хорошо, если данные, целочисленные или нет, демонстрируют ту же форму квадратичного отношения средней дисперсии, что и распределение NB.

Ссылки

Робинсон М. и Смит Г.К. (2008). Небольшая выборочная оценка отрицательной биномиальной дисперсии с приложениями к данным SAGE . Биостатистика 9, 321-332.

Робинсон, MD, и Смит, GK (2007). Модерируемые статистические тесты для оценки различий в количестве меток . Биоинформатика 23, 2881-2887.

Маккарти, DJ, Чен, Y, Смит, GK (2012). Анализ дифференциальной экспрессии многофакторных экспериментов RNA-Seq в отношении биологической изменчивости . Исследование нуклеиновых кислот 40, 4288-4297.

Chen, Y, Lun, ATL и Smyth, GK (2014). Анализ дифференциальной экспрессии сложных экспериментов RNA-seq с использованием edgeR. В: Статистический анализ данных о последовательностях следующего поколения, Сомнатх Датта и Даниэль С. Неттлтон (ред.), Спрингер, Нью-Йорк, стр. 51–74. Препринт

Лун, ATL, Чен, Y, и Смит, GK (2016). Это DE-licious: рецепт для анализа дифференциальной экспрессии экспериментов RNA-seq с использованием методов квази-правдоподобия в edgeR. Методы в молекулярной биологии 1418, 391-416. Препринт

Chen Y, Lun ATL и Smyth, GK (2016). От чтения к генам к путям: дифференциальный анализ экспрессии экспериментов RNA-Seq с использованием Rsubread и квази-правдоподобного конвейера edgeR . F1000, исследование 5, 1438.

Гордон Смит
источник
Это очень полезно, @Gordon; Большое спасибо, что нашли время, чтобы написать это. Я также работаю с данными RNA-seq, поэтому ответ с этой точки зрения особенно ценен (сейчас я добавил тег [bioinformatics] к этому вопросу). Ваша работа посвящена дифференциальному выражению, в то время как моя текущая работа посвящена кластеризации (статья, которую я читал, - Harris et al., Посвященная интернейронам CA1; biorxiv ). В любом случае, позвольте мне задать вам пару небольших вопросов / разъяснений. [продолжение]
говорит амеба Восстановить Монику
(1) Вы сказали, что непрерывный NB является гамма-смесью непрерывных пуассонов. Не могли бы вы немного рассказать об этом, возможно, показать это более явно? Я думаю, что это будет полезно для широкой аудитории. В связи с этим в комментариях к моему вопросу два человека написали, что непрерывный NB должен быть смесью гамм с параметром масштаба , но только для целого числа . Верны ли оба взгляда? (2) Вы сказали, что дельта-функция на нуле не имеет значения для GLM. В то же время, существует большая литература по GLM с нулевым раздуванием. Как это сочетается? rlog(p)r
говорит амеба: восстанови Монику
(3) В своей практической работе вы используете ML для оценки всех параметров, включая , или заранее фиксируете на некотором конкретном значении (возможно, на одном и том же значении для всех генов?) И затем держите его постоянным? Я предполагаю, что это должно быть намного проще. (Например, NB само по себе является семейством экспоненциальной дисперсии, но только с фиксированным .)р рrrr
говорит амеба Reinstate Monica
1
@amoeba Спасибо за ссылку. (1) Вывод NB как смеси пуассонов достаточно хорошо известен и находится в наших работах, например, McCarthy et al. Вывод непрерывного NB следует только путем замены Пуассона непрерывным Пуассоном. Должен ли я добавить это к моему ответу? Сделал бы это долго. Я не понимаю, как непрерывный NB можно было бы с пользой представить в виде смеси гамм. (2) Нет, нулевая инфляция - это другое дополнительное осложнение. Мы избегаем этого осложнения в нашей работе.
Гордон Смит
1
@amoeba (3) Оценим все параметры. Очень важно оценить общие дисперсии для достижения контроля частоты ошибок, и это должно быть сделано с особой тщательностью, потому что размеры выборки часто крошечные и размерность данных огромна. Мы используем сложную процедуру, которая включает скорректированный профиль вероятности (например, REML) в каждом гене, связанный с эмпирической байесовской процедурой вероятностного байесовского отношения между генами. Затем MLB glms затем устанавливаются ML с фиксированными дисперсиями. Наконец, коэффициенты проверяются с использованием F-тестов квази-правдоподобия.
Гордон Смит
19

Посмотрите на эту статью: Чандра, Нимай Кумар и Дилип Рой. Непрерывная версия отрицательного биномиального распределения. Statistica 72, нет. 1 (2012): 81 .

В статье она определена как функция выживания, что является естественным подходом, так как в анализе надежности был представлен отрицательный бином:

q=e-λ,λ0,p+q=1rN,r>0

Sr(x)={qxfor r=1k=0r1(x+k1k)pkqxfor r=2,3,
где и .q=eλ,λ0,p+q=1rN,r>0
Аксакал
источник
Благодарность! Я посмотрю на эту статью. (Это был не я, кто проголосовал.)
амеба говорит Восстановить Монику
@amoeba, я не беспокоюсь о понижении голосов, это интернет :)
Аксакал
3
(Странно, что этот ответ был отклонен ...) +1
whuber
Хорошо иметь эту ссылку, но в идеале я хотел бы увидеть более подробное обсуждение здесь. Эта функция выживания определяет то же самое распределение как PDF в моем вопросе? (Кстати, я нахожу немного странным, что авторы используют биномиальные коэффициенты для нецелых значений .) Несколько комментариев выше указывают, что это смесь гамма-распределений (я не вижу никакого обсуждения этого в бумага); Каковы параметры этих гамм, каковы веса смеси? Имеют ли формулы NB среднее значение и дисперсию для непрерывной версии? x
говорит амеба: восстанови
@amoeba, бумага есть моменты, они не то же самое , как и в NB, к сожалению
аксакал