Обрамление отрицательного биномиального распределения для секвенирования ДНК

16

Отрицательное биномиальное распределение стало популярной моделью для подсчета данных (в частности, ожидаемое количество считываний секвенирования в пределах данной области генома из данного эксперимента) в биоинформатике. Объяснения различаются:

  • Некоторые объясняют это как то, что работает как распределение Пуассона, но имеет дополнительный параметр, предоставляющий больше свободы для моделирования истинного распределения с дисперсией, не обязательно равной среднему
  • Некоторые объясняют это как взвешенную смесь распределений Пуассона (с распределением гамма-смешения по параметру Пуассона)

Есть ли способ привести эти логические обоснования в соответствие с традиционным определением отрицательного биномиального распределения, которое моделирует число успехов испытаний Бернулли, прежде чем увидеть определенное количество неудач? Или я должен просто думать об этом как о счастливом совпадении, что взвешенная смесь распределений Пуассона с распределением гамма-смешивания имеет ту же функцию вероятности, что и отрицательный бином?

Майкл Хоффман
источник
2
Это также составное распределение Пуассона, где вы суммируете число логарифмических случайных величин, распределенных по Пуассону.
Дуглас Заре

Ответы:

8

IMOH, я действительно думаю, что отрицательное биномиальное распределение используется для удобства.

Таким образом, в RNA Seq существует распространенное предположение, что если вы проведете бесконечное количество измерений одного и того же гена в бесконечном количестве повторов, то истинное распределение будет логнормальным. Это распределение затем отбирается с помощью процесса Пуассона (с подсчетом), поэтому истинное распределение, считываемое на ген по репликатам, будет распределением Пуассона-Логнормала.

Но в используемых нами пакетах, таких как EdgeR и DESeq, это распределение моделируется как отрицательное биномиальное распределение. Это не потому, что парни, которые написали это, не знали о распределении Poisson Lognormal.

Это связано с тем, что с распределением Пуассона Логнормала работать ужасно, потому что для его подгонки требуется числовая интеграция и т. Д. Поэтому, когда вы на самом деле пытаетесь его использовать, иногда производительность действительно плохая.

Негативное биномиальное распределение имеет закрытую форму, поэтому с ним намного проще работать, а гамма-распределение (базовый дистрибутив) очень похоже на логнормальное распределение, поскольку иногда оно выглядит нормально и иногда имеет хвост.

Но в этом примере (если вы верите предположению) это не может быть теоретически правильным, потому что теоретически правильное распределение является логнормальным по Пуассону, и эти два распределения являются разумными приближениями друг друга, но не эквивалентны.

Но я все еще думаю, что «неправильное» отрицательное биномиальное распределение часто является лучшим выбором, потому что эмпирически это даст лучшие результаты, потому что интеграция выполняется медленно, а подгонки могут работать плохо, особенно с распределениями с длинными хвостами.

Michele
источник
7

Я просмотрел несколько веб-страниц и не смог найти объяснения, но я нашел одну для целых значений . Предположим, у нас есть два радиоактивных источника, независимо генерирующих альфа- и бета-частицы со скоростями α и β соответственно.rαβ

Каково распределение числа альфа-частиц перед й бета-частицей?r

  1. Рассматривайте альфа-частицы как успехи, а бета-частицы как неудачи. Когда частица обнаружена, то вероятность того, что альфа - частица является . Итак, это отрицательное биномиальное распределениеNB(r,ααα+β.NB(r,αα+β)

  2. trrΓ(r,1/β).tr=λ/αtrPois(λ).r

Это объясняет, почему эти распределения равны.

Дуглас Заре
источник
2

Я могу предложить только интуицию, но само гамма-распределение описывает (непрерывное) время ожидания (сколько времени занимает редкое событие). Поэтому тот факт, что гамма-распределенная смесь дискретных распределений Пуассона привела бы к дискретному времени ожидания (испытания до сбоев N), не кажется слишком удивительным. Я надеюсь, что у кого-то есть более формальный ответ.

Редактировать: я всегда оправдывал отрицательный биномиальный дист. для секвенирования следующим образом: Фактическим этапом секвенирования является просто выборка считываний из большой библиотеки молекул (пуассона). Однако эта библиотека сделана из исходного образца методом ПЦР. Это означает, что исходные молекулы усиливаются экспоненциально. А гамма-распределение описывает сумму k независимых экспоненциально распределенных случайных величин, т. Е. Сколько молекул в библиотеке после амплификации k образцов молекул за то же количество циклов ПЦР.

Отсюда негативные биномиальные модели ПЦР с последующим секвенированием.

Феликс Шлезингер
источник
Это имеет смысл, но в контексте измерения количества считываний последовательности в геноме есть интуитивное объяснение того, что представляет период ожидания в отрицательном биномиальном распределении? В этом случае нет периода ожидания - он просто измеряет количество считываний последовательности.
RobertF
Смотрите мое редактирование. Я не вижу, как мышление об этом с точки зрения времени ожидания соответствует настройке последовательности. Гамма-пуассоновую смесь легче интерпретировать. Но в конце концов это одно и то же.
Феликс Шлезингер
2
Хорошо, тогда, возможно, реальный вопрос в том, по какому совпадению моделирование k успехов + r неудач в испытаниях Бернулли следует гамма-пуассоновской смеси? Может быть, отрицательное биномиальное моделирование k успехов + r отказов можно рассматривать как чрезмерно рассредоточенный Пуассон dbn из-за множества возможных перестановок испытаний на успех и неудачу, приводящих к точно k наблюдаемым успехам и r наблюдаемым сбоям, которые можно описать как совокупность отдельный дбнс?
RobertF
2

Я попытаюсь дать упрощенную механистическую интерпретацию, которая мне показалась полезной, если подумать об этом.

Предположим, у нас есть идеальный равномерный охват генома до подготовки библиотеки, и мы наблюдаем μчитает покрытие сайта в среднем. Скажем, что секвенирование - это процесс, который выбирает оригинальный фрагмент ДНК, подвергает его стохастическому процессу, который проходит ПЦР, субдискретизацию и т. Д., И на частоте создает основу из фрагментапи провал в противном случае. Если последовательность продолжается доμ1-пп неудачи, это может быть смоделировано с отрицательным биномиальным распределением, NВ(μ1-пп,п),

Подсчитав моменты этого распределения, мы получим ожидаемое количество успехов μ1-ппп1-пзнак равноμкак требуется. Для дисперсии числа успехов получаемσ2знак равноμ(1-п)-1 - скорость, с которой подготовка библиотеки терпит неудачу для фрагмента, увеличивает дисперсию в наблюдаемом покрытии.

Хотя приведенное выше является несколько искусственным описанием процесса секвенирования, и можно было бы создать надлежащую генеративную модель этапов ПЦР и т. Д., Я думаю, что это дает некоторое представление о происхождении параметра избыточной дисперсии (1-п)-1непосредственно из отрицательного биномиального распределения. Я предпочитаю модель Пуассона с интегрированной скоростью в качестве объяснения в целом.

Леопольд Части
источник