Биологический Фон
Со временем некоторые виды растений имеют тенденцию дублировать свои полные геномы, получая дополнительную копию каждого гена. Из-за нестабильности этой установки многие из этих генов затем удаляются, и геном перестраивается и стабилизируется, готовый к повторному дублированию. Эти события дублирования связаны с событиями видообразования и вторжения, и теория заключается в том, что дублирование помогает растениям быстрее адаптироваться к новым условиям.
Lupinus, род цветущего растения, вторгся в Анды в одном из самых быстрых событий видообразования, когда-либо обнаруженных, и, более того, в его геноме, по-видимому, больше повторяющихся копий, чем у самого близкого рода, Baptisia.
А теперь математическая проблема:
Геномы члена Lupinus и члена Baptisia были секвенированы, предоставляя необработанные данные о 25 000 генов у каждого вида. Опрашивая базу данных генов с известной функцией, теперь у меня есть «лучшее предположение» о том, какие функции может выполнять этот ген - например, Gene1298 может быть связан с «метаболизмом фруктозы, реакцией на солевой стресс, реакцией на холодный стресс». Я хочу знать, было ли событие дупликации между Baptisia и Lupinus, происходила ли потеря генов случайным образом, или гены, выполняющие определенные функции, были с большей вероятностью сохранены или удалены.
У меня есть скрипт, который будет выводить таблицу, как показано ниже. L * является подсчетом всех генов Lupinus, связанных с функцией. L 1+ представляет собой количество генов lupinus, связанных с функцией, где существует по меньшей мере одна дублирующаяся копия. Я могу заставить его производить L 2+, L 3+ и т. Д., Хотя L 1+ является гораздо более надежной группой, чем L 2+, благодаря процессу секвенирования.
Function | L * | L 1+ | B * | B 1+ |
fructose metabolism | 1000 | 994 | 1290 | 876 |
salt stress | 56 | 45 | 90 | 54 |
etc.
Что я хотел бы сделать, это проверить, для каждой функции гена, существует ли больше или меньше генов с дубликатами, чем можно было бы ожидать случайно у Lupinus и Baptisia, и отличается ли Lupinus от Baptisia отношением наблюдаемого к ожидаемому.
Лучшее, что у меня есть
В предыдущих исследованиях по различным видам использовался анализ обогащения с точным тестом Фишера и коррекцией FDR для множественного отбора проб для проведения теста на непредвиденные обстоятельства в каждом ряду.
Было бы неплохо улучшить это; Я не уверен, что это звучит как лучший способ сделать это.
Glen_b предложил использовать GLM для анализа данных; Я поиграл с GLM в JMP8, что было интересно, но я признаюсь, что не совсем их понимаю.
Тем не менее, я пытаюсь использовать R вместо этого сейчас.
Для чего я это использую?
Первоначально предполагалось, что это будет частью короткого исследовательского проекта, который я делаю в университете, но теперь превратился в огромный проект аннотации генома. Зачем? Потому что биоинформатика это круто. Удивительно, когда можно взять строку A, T, C и G и использовать ее для вывода информации о событиях, которые произошли миллионы лет назад.
Само собой разумеется, я не собираюсь пытаться представить любой любезно предоставленный ответ как мою собственную работу. Я был бы рад включить подтверждение в документ, если я использую метод, предложенный здесь в представленной работе.
Ответы:
Хотя я согласен, что тест Фишера (или что-то подобное) может быть наиболее естественным подходом, как насчет этого:
Модифицированный тест Фишера (названный CERNO авторами, которые впервые описали его в этом контексте) принимает любой упорядоченный список генов, если вы можете сгруппировать их в несколько полезных категорий.
Преимущество этого подхода состоит в том, что помимо значения p вы можете легко рассчитать величину эффекта обогащения и визуализировать его (например, в виде кривой ROC по упорядоченному списку генов). Это дает вам гораздо лучшее представление о том, насколько важно то, что вы наблюдаете, для изучаемой биологии.
источник
Как вы говорите, вы задаете два разных вопроса.
Вопрос 1 «Отношение L * / L1 + отличается от B * / B1 + для данной функции гена»
лучше всего ответить точным тестом Фишера, используя данные по строке, как вы уже нашли ранее.
Вопрос 2 «это соотношение: гены, где есть одна копия / гены, где есть более одной копии, отличающиеся между функциями гена?"
Я думаю, что на это также лучше всего ответить с помощью точного теста Фишера. Вы бы проверили соотношение L * / L1 + для генной функции 1 к L * / L1 + для генной функции 2. Затем генная функция 1 против генной функции 3 и т. Д.
Ни один из этих наборов вопросов не позволяет понять, поддерживаются ли они / удаляются быстрее, чем ожидалось, чисто случайно, только в том случае, если они удаляются / поддерживаются со скоростью, отличной друг от друга. Чтобы знать, были ли они удалены / поддерживаются с частотой, отличной от случайной, вам нужно знать соотношение однократной / множественной копии для множества областей ДНК, на которые случайно влияет только. Если бы вы могли найти такие регионы, вы бы получили «Функциональную группу», в которой «Нет». Затем вы сравнили бы это с другими группами генных функций так же, как я описал в вопросе 2.
источник