Размышления о вероятности всегда заставляют меня понять, насколько я плох в подсчете ...
Рассмотрим последовательность из базовых букв , каждый из которых имеет одинаковую вероятность. Какова вероятность того, что эта последовательность содержит конкретную последовательность пар оснований, представляющих интерес длины ?
Возможны различных (одинаково вероятных) последовательностей. Начните с интересующей последовательности в начале полной последовательности; последовательности, подобные этой, возможны. Мы можем начать нашу последовательность интересов в разных местах. Следовательно, мой ответ .
Эта вероятность увеличивается в , что имеет смысл для меня. Но эта вероятность превышает 1, когда . Но этого не может быть. Вероятность должна приближаться к 1 в пределе (мне кажется), но не превышать его.
Я предполагаю, что я что-то считаю дважды. Что мне не хватает? Спасибо.
(К вашему сведению, не домашняя работа, просто игрушечный пример для подготовки к экзаменам. Вопрос, заданный моим другом-молекулярным биологом.)
источник
Ответы:
Давайте рассмотрим небольшую версию этой проблемы с . Какова вероятность того, что последовательность из пяти букв будет содержать целевой файл ? Это легко: всех последовательностей начинаются с этой строки, еще заканчиваются ею, и никакая последовательность не начинается и не заканчивается этой строкой. Следовательно, шанс равен .… A C G T … 4 - 4 4 - 4 2 × 4 - 4n=5 …ACGT… 4−4 4−4 2×4−4
С другой стороны, какова вероятность ? Еще раз, последовательностей начинаются с этой строки, та же самая пропорция заканчивается этой строкой, и всех последовательностей делают оба . Поэтому, согласно принципу включения-исключения, ответ будет .4 - 4 4 - 5 2 × 4 - 4 - 4 - 5…AAAA… 4−4 4−5 2×4−4−4−5
В общем случае ответ зависит от структуры подстроки. Чтобы быть более конкретным, когда вы сканируете строку (слева направо, скажем) для , вы игнорируете все символы до тех пор , пока не увидите , что первоначальный . После этого, есть три возможности: следующий символ является матчем для , следующий один не является матч для , но это не (так что вы вернулись в годов- поживет для- состояние), или следующий один не является матч еще что это , помещая вас в точно пилообразной ап- состояние. Напротив, рассмотрим поиск . Предположим, вы видели префиксС С С Т С С С Т С С С С Т ... С ТACGT A C C A A A A ACTACG ACTAC , Следующий символ будет соответствовать , если это . Когда это не соответствует, (i) переводит вас в начальное состояние ожидания , (ii) заставляет вас следить за , и (iii) означает, что вы уже видели и вы уже на полпути к матчу (и ищете второй ). Соответствующая «структура», очевидно, состоит из шаблонов подстрок в цели, которые соответствуют префиксу цели. Вот почему шансы зависят от целевой строки.G C A A C T …ACT A
Диаграммы FSA, которые я защищаю в ответе в « Времени», взятом для того, чтобы нанести удар головой и хвостом в серии бросков, могут помочь в понимании этого явления.
источник
Грубое приближение было бы . Вы берете вероятность того, что ваша последовательность не встречается в определенном месте, приравниваете ее к степени количества местоположений (ложно предполагая независимость), которая равна , а не , и это является приближением ее отсутствия поэтому вам нужно вычесть это из . п - г + 1 п - г 11−(1−1/4r)n−r+1 n−r+1 n−r 1
Точный расчет будет зависеть от того, какой именно шаблон вы ищете. , скорее всего, не произойдет, чем .A T C G TAAAAA ATCGT
источник
Вы дважды подсчитываете последовательности, которые в несколько раз включают вашу целевую подпоследовательность, например, как в позиции A, так и в позиции B! = A. Вот почему ваша ошибочная вероятность может превышать 1
источник
Можно получить точную вероятность конкретной подпоследовательности, используя цепную марковскую задачу. Особенности построения цепочки зависят от конкретной интересующей подпоследовательности, но я приведу несколько примеров того, как это сделать.
Точная вероятность по цепочке Маркова. Рассмотрим дискретную последовательность результатов где результаты в последовательности являются взаимозаменяемыми, и предположим, что нас интересует некоторая подстрока длины . Для любого заданного значения , пусть будет событием, когда возникает интересующая подстрока, и пусть будет событием, когда последними результатами являются первые символов в подстроке интерес (но не более того). Мы используем эти события, чтобы дать следующий раздел возможных состояний интереса:A,T,C,G k n W Ha a a<k k+1
Поскольку предполагается, что последовательность результатов является у нас есть независимые результаты, зависящие от их соответствующих вероятностей . Интересующий вас процесс может быть представлен в виде цепей Маркова с дискретным временем, которые начинаются в при и переходят в соответствии с матрицей вероятности, которая зависит от конкретной интересующей подстроки. Матрица перехода всегда будетθA+θT+θC+θG=1 State 0 n=0 (k+1)×(k+1) матрица, представляющая вероятности перехода с использованием вышеуказанных состояний. Если интересующая подстрока не была достигнута, то каждый переход может либо приблизить вас на один шаг к подстроке, либо вернуть вас в предыдущее состояние, которое зависит от конкретной подстроки. Как только подстрока достигнута, это поглощающее состояние цепи, представляющее тот факт, что произошло интересующее событие.
Например, если интересующей подстрокой является тогда матрица перехода:AAAAAA
И наоборот, если интересующей подстрокой является тогда матрица перехода:ACTAGC
Как видно выше, построение матрицы перехода требует внимания к конкретной подстроке. Неправильный результат возвращает вас к предыдущему состоянию в строке, которое зависит от конкретной интересующей подстроки. Как только матрица перехода построена, для данного значения вероятность наличия подстроки в цепочке равна . (Эта вероятность равна нулю для всех .)n P(W|n)={Pn}0,k n<k
Программирование этого в R: Вы можете запрограммировать это как функциюn
R
, создав функцию, которая генерирует матрицу переходов для цепи Маркова и массив ее степеней вплоть до некоторого желаемого количества испытаний. Затем вы можете прочитать соответствующую вероятность перехода для значения которое представляет интерес. Вот пример кода для этого:Как вы можете видеть из этого расчета, вероятность получения подстроки в бросков с равновероятными результатами составляет . Это всего лишь один пример, использующий конкретную подстроку и заданное количество испытаний, но его можно варьировать для получения вероятностей относительно других подстрок, представляющих интерес.AAAAAA n=100 0.01732435
источник