Анализ обогащения по уровню дупликации генов

11

Биологический Фон

Со временем некоторые виды растений имеют тенденцию дублировать свои полные геномы, получая дополнительную копию каждого гена. Из-за нестабильности этой установки многие из этих генов затем удаляются, и геном перестраивается и стабилизируется, готовый к повторному дублированию. Эти события дублирования связаны с событиями видообразования и вторжения, и теория заключается в том, что дублирование помогает растениям быстрее адаптироваться к новым условиям.

Lupinus, род цветущего растения, вторгся в Анды в одном из самых быстрых событий видообразования, когда-либо обнаруженных, и, более того, в его геноме, по-видимому, больше повторяющихся копий, чем у самого близкого рода, Baptisia.

А теперь математическая проблема:

Геномы члена Lupinus и члена Baptisia были секвенированы, предоставляя необработанные данные о 25 000 генов у каждого вида. Опрашивая базу данных генов с известной функцией, теперь у меня есть «лучшее предположение» о том, какие функции может выполнять этот ген - например, Gene1298 может быть связан с «метаболизмом фруктозы, реакцией на солевой стресс, реакцией на холодный стресс». Я хочу знать, было ли событие дупликации между Baptisia и Lupinus, происходила ли потеря генов случайным образом, или гены, выполняющие определенные функции, были с большей вероятностью сохранены или удалены.

У меня есть скрипт, который будет выводить таблицу, как показано ниже. L * является подсчетом всех генов Lupinus, связанных с функцией. L 1+ представляет собой количество генов lupinus, связанных с функцией, где существует по меньшей мере одна дублирующаяся копия. Я могу заставить его производить L 2+, L 3+ и т. Д., Хотя L 1+ является гораздо более надежной группой, чем L 2+, благодаря процессу секвенирования.

Function            | L *  | L 1+ | B *  | B 1+ |
fructose metabolism | 1000 | 994  | 1290 | 876  |
salt stress         | 56   | 45   | 90   | 54   |
etc.

Что я хотел бы сделать, это проверить, для каждой функции гена, существует ли больше или меньше генов с дубликатами, чем можно было бы ожидать случайно у Lupinus и Baptisia, и отличается ли Lupinus от Baptisia отношением наблюдаемого к ожидаемому.

Лучшее, что у меня есть

В предыдущих исследованиях по различным видам использовался анализ обогащения с точным тестом Фишера и коррекцией FDR для множественного отбора проб для проведения теста на непредвиденные обстоятельства в каждом ряду.

Было бы неплохо улучшить это; Я не уверен, что это звучит как лучший способ сделать это.

Glen_b предложил использовать GLM для анализа данных; Я поиграл с GLM в JMP8, что было интересно, но я признаюсь, что не совсем их понимаю.

Тем не менее, я пытаюсь использовать R вместо этого сейчас.

Для чего я это использую?

Первоначально предполагалось, что это будет частью короткого исследовательского проекта, который я делаю в университете, но теперь превратился в огромный проект аннотации генома. Зачем? Потому что биоинформатика это круто. Удивительно, когда можно взять строку A, T, C и G и использовать ее для вывода информации о событиях, которые произошли миллионы лет назад.

Само собой разумеется, я не собираюсь пытаться представить любой любезно предоставленный ответ как мою собственную работу. Я был бы рад включить подтверждение в документ, если я использую метод, предложенный здесь в представленной работе.

generalized-linear-model contingency-tables fishers-exact genetics bioinformatics TDN169
источник

1

Обратите внимание на проблему, о которой я упоминал в своем предыдущем ответе на ваш другой вопрос - о тестировании только по одной переменной, когда есть другие важные переменные (я указал на статью в Википедии о парадоксе Симпсона) - точный тест Фишера не справляется с этим.

Glen_b

Биоинформатика это круто !! Добро пожаловать на сайт!

Кайл.

Я скоро вернусь и дам более подробные ответы, но подходящими функциями в R для просмотра будут loglin, loglm (в пакете MASS, который поставляется с R, но не установлен по умолчанию) и сам glm. Понимание этих моделей будет во многом сходно с пониманием множественной регрессии и ANOVA - за исключением того, что распределения не являются нормальными, а средние значения - это то, в чем модели линейны.

Glen_b -Reinstate Monica

1

Хотя я согласен, что тест Фишера (или что-то подобное) может быть наиболее естественным подходом, как насчет этого:

Для каждого уникального гена вы определяете разницу в количестве дупликаций в L и B
Порядок генов по этой разнице. Теперь гены, показывающие большинство различий между видами, будут в верхней части вашего списка.
Примените тест обогащения набора генов к упорядоченному списку генов. Например, вы можете использовать модифицированный метод Фишера из моего пакета tmod , для которого вам нужно будет определить ваши генные наборы (это должно быть довольно просто). Обратите внимание, что метод Фишера не связан с тестом Фишера.

Модифицированный тест Фишера (названный CERNO авторами, которые впервые описали его в этом контексте) принимает любой упорядоченный список генов, если вы можете сгруппировать их в несколько полезных категорий.

Преимущество этого подхода состоит в том, что помимо значения p вы можете легко рассчитать величину эффекта обогащения и визуализировать его (например, в виде кривой ROC по упорядоченному списку генов). Это дает вам гораздо лучшее представление о том, насколько важно то, что вы наблюдаете, для изучаемой биологии.

январь
источник

0

Как вы говорите, вы задаете два разных вопроса.

Вопрос 1 «Отношение L * / L1 + отличается от B * / B1 + для данной функции гена»

лучше всего ответить точным тестом Фишера, используя данные по строке, как вы уже нашли ранее.

Вопрос 2 «это соотношение: гены, где есть одна копия / гены, где есть более одной копии, отличающиеся между функциями гена?"

Я думаю, что на это также лучше всего ответить с помощью точного теста Фишера. Вы бы проверили соотношение L * / L1 + для генной функции 1 к L * / L1 + для генной функции 2. Затем генная функция 1 против генной функции 3 и т. Д.

Ни один из этих наборов вопросов не позволяет понять, поддерживаются ли они / удаляются быстрее, чем ожидалось, чисто случайно, только в том случае, если они удаляются / поддерживаются со скоростью, отличной друг от друга. Чтобы знать, были ли они удалены / поддерживаются с частотой, отличной от случайной, вам нужно знать соотношение однократной / множественной копии для множества областей ДНК, на которые случайно влияет только. Если бы вы могли найти такие регионы, вы бы получили «Функциональную группу», в которой «Нет». Затем вы сравнили бы это с другими группами генных функций так же, как я описал в вопросе 2.

Фил А
источник

Анализ обогащения по уровню дупликации генов

Ответы: