Отрицательное биномиальное распределение стало популярной моделью для подсчета данных (в частности, ожидаемое количество считываний секвенирования в пределах данной области генома из данного эксперимента) в биоинформатике. Объяснения различаются:
- Некоторые объясняют это как то, что работает как распределение Пуассона, но имеет дополнительный параметр, предоставляющий больше свободы для моделирования истинного распределения с дисперсией, не обязательно равной среднему
- Некоторые объясняют это как взвешенную смесь распределений Пуассона (с распределением гамма-смешения по параметру Пуассона)
Есть ли способ привести эти логические обоснования в соответствие с традиционным определением отрицательного биномиального распределения, которое моделирует число успехов испытаний Бернулли, прежде чем увидеть определенное количество неудач? Или я должен просто думать об этом как о счастливом совпадении, что взвешенная смесь распределений Пуассона с распределением гамма-смешивания имеет ту же функцию вероятности, что и отрицательный бином?
Ответы:
IMOH, я действительно думаю, что отрицательное биномиальное распределение используется для удобства.
Таким образом, в RNA Seq существует распространенное предположение, что если вы проведете бесконечное количество измерений одного и того же гена в бесконечном количестве повторов, то истинное распределение будет логнормальным. Это распределение затем отбирается с помощью процесса Пуассона (с подсчетом), поэтому истинное распределение, считываемое на ген по репликатам, будет распределением Пуассона-Логнормала.
Но в используемых нами пакетах, таких как EdgeR и DESeq, это распределение моделируется как отрицательное биномиальное распределение. Это не потому, что парни, которые написали это, не знали о распределении Poisson Lognormal.
Это связано с тем, что с распределением Пуассона Логнормала работать ужасно, потому что для его подгонки требуется числовая интеграция и т. Д. Поэтому, когда вы на самом деле пытаетесь его использовать, иногда производительность действительно плохая.
Негативное биномиальное распределение имеет закрытую форму, поэтому с ним намного проще работать, а гамма-распределение (базовый дистрибутив) очень похоже на логнормальное распределение, поскольку иногда оно выглядит нормально и иногда имеет хвост.
Но в этом примере (если вы верите предположению) это не может быть теоретически правильным, потому что теоретически правильное распределение является логнормальным по Пуассону, и эти два распределения являются разумными приближениями друг друга, но не эквивалентны.
Но я все еще думаю, что «неправильное» отрицательное биномиальное распределение часто является лучшим выбором, потому что эмпирически это даст лучшие результаты, потому что интеграция выполняется медленно, а подгонки могут работать плохо, особенно с распределениями с длинными хвостами.
источник
Я просмотрел несколько веб-страниц и не смог найти объяснения, но я нашел одну для целых значений . Предположим, у нас есть два радиоактивных источника, независимо генерирующих альфа- и бета-частицы со скоростями α и β соответственно.r α β
Каково распределение числа альфа-частиц перед й бета-частицей?r
Рассматривайте альфа-частицы как успехи, а бета-частицы как неудачи. Когда частица обнаружена, то вероятность того, что альфа - частица является . Итак, это отрицательное биномиальное распределениеNB(r,ααα+β .NB(r,αα+β)
Это объясняет, почему эти распределения равны.
источник
Я могу предложить только интуицию, но само гамма-распределение описывает (непрерывное) время ожидания (сколько времени занимает редкое событие). Поэтому тот факт, что гамма-распределенная смесь дискретных распределений Пуассона привела бы к дискретному времени ожидания (испытания до сбоев N), не кажется слишком удивительным. Я надеюсь, что у кого-то есть более формальный ответ.
Редактировать: я всегда оправдывал отрицательный биномиальный дист. для секвенирования следующим образом: Фактическим этапом секвенирования является просто выборка считываний из большой библиотеки молекул (пуассона). Однако эта библиотека сделана из исходного образца методом ПЦР. Это означает, что исходные молекулы усиливаются экспоненциально. А гамма-распределение описывает сумму k независимых экспоненциально распределенных случайных величин, т. Е. Сколько молекул в библиотеке после амплификации k образцов молекул за то же количество циклов ПЦР.
Отсюда негативные биномиальные модели ПЦР с последующим секвенированием.
источник
Я попытаюсь дать упрощенную механистическую интерпретацию, которая мне показалась полезной, если подумать об этом.
Предположим, у нас есть идеальный равномерный охват генома до подготовки библиотеки, и мы наблюдаемμ читает покрытие сайта в среднем. Скажем, что секвенирование - это процесс, который выбирает оригинальный фрагмент ДНК, подвергает его стохастическому процессу, который проходит ПЦР, субдискретизацию и т. Д., И на частоте создает основу из фрагментап и провал в противном случае. Если последовательность продолжается доμ 1 - рп неудачи, это может быть смоделировано с отрицательным биномиальным распределением, NБ ( μ 1 - рп, р ) ,
Подсчитав моменты этого распределения, мы получим ожидаемое количество успеховμ 1 - рпп1 - р= μ как требуется. Для дисперсии числа успехов получаемσ2= μ ( 1 - p )- 1
- скорость, с которой подготовка библиотеки терпит неудачу для фрагмента, увеличивает дисперсию в наблюдаемом покрытии.
Хотя приведенное выше является несколько искусственным описанием процесса секвенирования, и можно было бы создать надлежащую генеративную модель этапов ПЦР и т. Д., Я думаю, что это дает некоторое представление о происхождении параметра избыточной дисперсии( 1 - р )- 1 непосредственно из отрицательного биномиального распределения. Я предпочитаю модель Пуассона с интегрированной скоростью в качестве объяснения в целом.
источник