Каковы основные компоненты в исследованиях ассоциаций всего генома?

20

В общегеномных ассоциативных исследованиях (GWAS):

  1. Каковы основные компоненты?
  2. Почему они используются?
  3. Как они рассчитываются?
  4. Можно ли провести исследование ассоциации всего генома без использования PCA?
suprvisr
источник
1
Прежде чем задавать эти вопросы, вы искали на этом сайте "PCA" или изучили тег "PCA"? На большинство ваших вопросов там уже есть ответы.
whuber
1
@whuber Я думаю, что ОП ищет использование PCA в качестве способа учета и корректировки для стратификации населения при моделировании определенного результата (непрерывные исследования фенотипа или случая / контроля) и маркеров ДНК (SNP). Я дал ссылку здесь: stats.stackexchange.com/questions/1708/variation-in-pca-weights/… .
хл
1
GWAS, безусловно, может быть сделано без основных компонентов. В отсутствие стратификации населения все, что вам нужно, это тысячи тестов или тысячи тестов хи-квадрат. T
OneStop
@onestop (+1) Я считаю, что вы ответили на 2-й вопрос, который я даже не учел в своем собственном ответе.
хл
@onetop, что, если только стратифицировать по полу / расе? не могли бы вы уточнить свой ответ, пожалуйста?
suprvisr

Ответы:

27

В этом конкретном контексте PCA в основном используется для учета специфических для популяции изменений в распределении аллелей на SNP (или других ДНК-маркерах, хотя я только знаком со случаем SNP), который исследуется. Такая «популяционная субструктура» возникает главным образом вследствие различной частоты второстепенных аллелей у генетически отдаленных предков (например, японцев и чернокожих или европейцев-американцев). Общая идея хорошо объяснена в Популяционной Структуре и Собственном анализе Patterson et al. ( PLoS Genetics 2006, 2 (12)), или специальный выпуск Lancet по генетической эпидемиологии (2005, 366; большинство статей можно найти в Интернете, начиная с Cordell & Clayton, Genetic Association Studies ).

Построение главных осей следует из классического подхода к PCA, который применяется к масштабированной матрице (индивиды по SNP) наблюдаемых генотипов (AA, AB, BB; скажем, B является минорным аллелем во всех случаях), за исключением того, что может быть применена дополнительная нормализация для учета смещения населения. Все это предполагает, что частота минорного аллеля (принимающая значение в {0,1,2}) может рассматриваться как числовая, то есть мы работаем по аддитивной модели (также называемой аллельной дозировкой) или любой эквивалентной, которая имела бы смысл , Поскольку последующие ортогональные ПК будут учитывать максимальную дисперсию, это позволяет выделить группы лиц, различающихся по уровню частоты второстепенных аллелей. Программное обеспечение, используемое для этого, известно как Eigenstrat . Это также доступно вegscore()функция из пакета GenABEL R (см. также GenABEL.org ). Стоит отметить, что были предложены другие методы выявления субструктуры населения, в частности реконструкция кластеров на основе моделей (см. Ссылки в конце). Дополнительную информацию можно найти, просмотрев проект Hapmap и доступное руководство, полученное из проекта Bioconductor . (Найдите в Google хорошие учебники Винса Дж. Кэри или Дэвида Клэйтона).

±6 SD по крайней мере на одной из первых 20 основных осей; в некотором смысле это отбеливает образец. Обратите внимание, что любая такая мера расстояния генотипа (это также имеет место при использовании многомерного масштабирования вместо PCA) позволит обнаружить родственников или братьев и сестер. Программное обеспечение plink предоставляет дополнительные методы, см. Раздел в онлайн-справке.

Учитывая, что собственный анализ позволяет выявить некоторую структуру на уровне отдельных лиц, мы можем использовать эту информацию, пытаясь объяснить наблюдаемые изменения в данном фенотипе (или любое распределение, которое может быть определено в соответствии с бинарным критерием, например, болезнь или случай-контроль ситуация). В частности, мы можем скорректировать наш анализ с этими компьютерами (то есть с оценками факторов отдельных лиц), как показано в разделе «Анализ основных компонентов», который корректирует стратификацию в исследованиях ассоциаций по всему геному. Авторы Price et al. ( Nature Genetics 2006, 38 (8)) и более поздние работы (была прекрасная картина, показывающая оси генетических вариаций в Европе в географии зеркальной географии в Европе; Nature 2008; Рис 1А воспроизведен ниже). Также обратите внимание, что другим решением является проведение стратифицированного анализа (путем включения этнической принадлежности в GLM) - например, он легко доступен в пакете snpMatrix .

гены зеркальная география в европе

Ссылки

  1. Даниэль Фалуш, Мэтью Стивенс и Джонатан К. Притчард (2003). Вывод структуры популяции с использованием данных мультилокусного генотипа: связанные локусы и коррелированные частоты аллелей . Генетика , 164 (4): 1567–1587.
  2. B Devlin и K Roeder (1999). Геномный контроль для изучения ассоциаций . Biometrics , 55 (4): 997–1004.
  3. Дж. Притчард, М. Стивенс и П. Доннелли (2000). Вывод структуры популяции по данным мультилокусного генотипа . Генетика , 155 (2): 945–959.
  4. Ган Чжэн, Борис Фрейдлин, Чжаохай Ли и Джозеф Л. Гаствирт (2005). Геномный контроль для изучения ассоциаций в рамках различных генетических моделей . Biometrics , 61 (1): 186–92.
  5. Чао Тянь, Питер К. Грегерсен и Майкл Ф. Селдин1 (2008). Учет родословной: популяционная субструктура и общегеномные ассоциации . Молекулярная генетика человека , 17 (R2): R143-R150.
  6. Кай Ю. Популяционная субструктура и контрольный отбор в исследованиях по всей геномной ассоциации .
  7. Алкес Л. Прайс, Ноа А. Зейтлен, Дэвид Рейх и Ник Паттерсон (2010). Новые подходы к популяционной стратификации в исследованиях ассоциаций по всему геному , Nature Reviews Genetics
  8. Чао Тянь и др. (2009). Европейская популяционная генетическая субструктура: дальнейшее определение информативных маркеров предков для различения среди разнообразных европейских этнических групп , Молекулярная медицина, 15 (11-12): 371–383.
хл
источник
Большое спасибо. Естественно, тогда возникает больше вопросов: 1) Что произойдет, если я проигнорирую PCA и расслаю свою выборку GWAS только по GENDER / RACE / AGE и проигнорирую PCA. Как это отразит мой анализ ассоциации и его результат? 2) Если я на самом деле хочу использовать PCA, сколько SNPS мне нужно, чтобы генотипирование было хотя бы правдивым PCA? 200 достаточно? Должны ли они быть равномерно распределены по всем хромосомам? 3) Какие SNP используются в PCA? Это предопределенный набор или любой?
suprvisr
@suprvisr Я могу ответить прямо здесь или обновить свой ответ, но я думаю, что лучше задать новый вопрос (наряду с идеей «плюсы и минусы адаптации с помощью PCA против стратификации») и связать его с тем, чтобы люди может четко сделать необходимые подключения.
ЧЛ
@AndyFrost предположил, что ссылочные цифры могут иметь следующие цифры: goo.gl/jNXx0x, а изображение, на которое вы можете ссылаться, может быть в goo.gl/TcK3g8 .
gung - Восстановить Монику
@chl Не могли бы вы объяснить, что вы подразумеваете под этим: «Что обычно делается в этом случае, так это повторное применение PCA и удаление лиц, чьи оценки ниже ± 6 ± 6 SD по крайней мере на одном из первых 20 основных оси». Я искал ответ на свой пост здесь: biostars.org/p/180336
MAPK