Отрицательное биномиальное (NB) распределение определяется на неотрицательных целых числах и имеет функцию вероятности массыИмеет ли смысл рассматривать непрерывное распределение на неотрицательных вещественных числах, определенных той же формулой (заменив k \ in \ mathbb N_0 на x \ in \ mathbb R _ {\ ge 0} )? Биномиальный коэффициент может быть переписан как произведение (k + 1) \ cdot \ ldots \ cdot (k + r-1) , которое хорошо определено для любого реального k . Таким образом, у нас будет PDF f (x; r, p) \ propto \ prod_ {i = 1} ^ {r-1} (x + i) \ cdot p ^ {x} (1-p) ^ {r} , В более общем смысле, мы можем заменить биномиальный коэффициент гамма-функциями, учитывая нецелые значения r : k∈N0x∈R≥0(k+1)⋅…⋅(k+r-1)kf(x;r,p)∝r-1∏i=1(x+i)⋅px(
Это действительный дистрибутив? У него есть имя? Есть ли у него какое-либо применение? Это может быть какое-то соединение или смесь? Существуют ли замкнутые формулы для среднего значения и дисперсии (и константы пропорциональности в PDF)?
(В настоящее время я изучаю статью, в которой используется модель смеси NB (с фиксированным ) и подходит к ней через EM. Однако после некоторой нормализации данные являются целыми числами, то есть не целыми числами. Тем не менее, авторы применяют стандартную формулу NB для вычисления вероятность и получить очень разумные результаты, так что, кажется, все работает отлично. Я нашел это очень загадочным. Обратите внимание, что этот вопрос не о NB GLM.)
источник
Ответы:
Это интересный вопрос. Моя исследовательская группа уже несколько лет использует дистрибутив, на который вы ссылаетесь, в нашем общедоступном программном обеспечении для биоинформатики. Насколько я знаю, у дистрибутива нет названия и нет литературы по нему. Хотя статья Чандры и др. (2012), цитируемая Аксакалом, тесно связана, распределение, которое они рассматривают, кажется, ограничивается целочисленными значениями для и они, похоже, не дают явного выражения для pdf.r
Чтобы дать вам некоторое представление, распределение NB очень интенсивно используется в геномных исследованиях для моделирования данных по экспрессии генов, полученных из RNA-seq и связанных с ними технологий. Данные подсчета возникают как число считываний последовательности ДНК или РНК, выделенных из биологического образца, который можно сопоставить с каждым геном. Как правило, есть десятки миллионов считываний из каждого биологического образца, которые сопоставлены примерно с 25 000 генов. В качестве альтернативы можно получить образцы ДНК, из которых показания отображаются в окнах генома. Мы и другие популяризировали подход, в соответствии с которым NB glms подгоняются к считываниям последовательности для каждого гена, а эмпирические байесовские методы используются, чтобы смягчить аналогичные оценки дисперсии (дисперсияϕ=1/r ). Этот подход цитировался в десятках тысяч журнальных статей в геномной литературе, поэтому вы можете понять, насколько он используется.
Моя группа поддерживает пакет программного обеспечения edgeR R, Несколько лет назад мы пересмотрели весь пакет, чтобы он работал с дробным числом, используя непрерывную версию NB pmf. Мы просто преобразовали все биномиальные коэффициенты в NB pmf в отношения гамма-функций и использовали его как (смешанный) непрерывный pdf. Мотивация для этого состояла в том, что число считываний последовательности может иногда быть дробным из-за (1) неоднозначного отображения чтений в транскриптом или геном и / или (2) нормализации подсчетов для корректировки технических эффектов. Таким образом, подсчет иногда представляет собой ожидаемый подсчет или расчетный подсчет, а не наблюдаемый подсчет. И, конечно, число считываний может быть ровно нулевым с положительной вероятностью. Наш подход гарантирует, что результаты логического вывода нашего программного обеспечения являются непрерывными в подсчетах, точно совпадая с дискретными результатами NB, когда предполагаемые подсчеты оказываются целыми числами.
Насколько я знаю, для нормализующей константы в pdf нет закрытой формы, равно как и для среднего значения или дисперсии. Если учесть, что для интеграла (постоянная Франсена-Робинсона) нет закрытой формы, становится ясно, что для интеграла от непрерывного не может быть NB pdf тоже. Однако мне кажется, что традиционные формулы среднего и дисперсии для NB должны оставаться хорошими приближениями для непрерывного NB. Кроме того, нормализующая константа должна медленно изменяться в зависимости от параметров и поэтому может игнорироваться как оказывающая незначительное влияние в расчетах максимального правдоподобия.
Можно подтвердить эти гипотезы путем численного интегрирования. Распределение NB возникает в биоинформатике как гамма-смесь распределений Пуассона (см. Статью с отрицательным биномиальным википедией или McCarthy et al. Ниже). Непрерывное распределение NB возникает просто путем замены распределения Пуассона на его непрерывный аналог pdf для где - нормализующая константа, обеспечивающая интегрирование плотности в 1. Предположим, например, что . Распределение Пуассона имеет pmf, равный указанному выше pdf для неотрицательных целых чисел, и при х≥0(λ)λ=10λ=10(10)=1/0,999875-1/2∞
В нашем пакете edgeR нам не нужно настраивать тот факт, что масса равна нулю, потому что мы всегда работаем с условными логарифмическими правдоподобиями или с логарифмическими разностями правдоподобия, а любые дельта-функции отменяют вычисления. Это типично, кстати, для glms со смешанным распределением вероятностей. В качестве альтернативы, мы могли бы считать, что распределение не имеет массы в нуле, но имеет поддержку, начинающуюся с -1/2 вместо нуля. Любая теоретическая перспектива приводит к одинаковым расчетам на практике.
Хотя мы активно используем непрерывный NB-дистрибутив, мы ничего явно не опубликовали. Статьи, приведенные ниже, объясняют подход NB к геномным данным, но не обсуждают непрерывное распределение NB в явном виде.
Таким образом, я не удивлен, что статья, которую вы изучаете, получила разумные результаты из непрерывной версии NB PDF, потому что это также наш опыт. Ключевым требованием является то, что мы должны правильно моделировать средние и дисперсии, и это будет хорошо, если данные, целочисленные или нет, демонстрируют ту же форму квадратичного отношения средней дисперсии, что и распределение NB.
Ссылки
Робинсон М. и Смит Г.К. (2008). Небольшая выборочная оценка отрицательной биномиальной дисперсии с приложениями к данным SAGE . Биостатистика 9, 321-332.
Робинсон, MD, и Смит, GK (2007). Модерируемые статистические тесты для оценки различий в количестве меток . Биоинформатика 23, 2881-2887.
Маккарти, DJ, Чен, Y, Смит, GK (2012). Анализ дифференциальной экспрессии многофакторных экспериментов RNA-Seq в отношении биологической изменчивости . Исследование нуклеиновых кислот 40, 4288-4297.
Chen, Y, Lun, ATL и Smyth, GK (2014). Анализ дифференциальной экспрессии сложных экспериментов RNA-seq с использованием edgeR. В: Статистический анализ данных о последовательностях следующего поколения, Сомнатх Датта и Даниэль С. Неттлтон (ред.), Спрингер, Нью-Йорк, стр. 51–74. Препринт
Лун, ATL, Чен, Y, и Смит, GK (2016). Это DE-licious: рецепт для анализа дифференциальной экспрессии экспериментов RNA-seq с использованием методов квази-правдоподобия в edgeR. Методы в молекулярной биологии 1418, 391-416. Препринт
Chen Y, Lun ATL и Smyth, GK (2016). От чтения к генам к путям: дифференциальный анализ экспрессии экспериментов RNA-Seq с использованием Rsubread и квази-правдоподобного конвейера edgeR . F1000, исследование 5, 1438.
источник
Посмотрите на эту статью: Чандра, Нимай Кумар и Дилип Рой. Непрерывная версия отрицательного биномиального распределения. Statistica 72, нет. 1 (2012): 81 .
В статье она определена как функция выживания, что является естественным подходом, так как в анализе надежности был представлен отрицательный бином:
q=e-λ,λ≥0,p+q=1r∈N,r>0
источник