Какой объем памяти потребуется для хранения генома человека?

84

Я ищу объем памяти в байтах (МБ, ГБ, ТБ и т. Д.), Необходимый для хранения одного генома человека. Я прочитал несколько статей в Википедии о ДНК, хромосомах, парах оснований, генах и имею некоторые приблизительные предположения, но прежде чем что-либо раскрывать, я хотел бы узнать, как другие подойдут к этой проблеме.

Альтернативный вопрос: сколько атомов содержится в ДНК человека, но это будет не по теме для этого сайта.

Я понимаю, что это будет приблизительное значение, поэтому я ищу минимальное значение, при котором ДНК любого человека может быть сохранена.

Милан Бабушков
источник
Что касается количества атомов, то это зависит от состава. A и T - меньшие молекулы, чем G и C. Структура молекулы - это говядина, а не ее атомный состав, так что это не очень полезный расчет. (Для чего это стоит, например, молекула A, также известная как дезоксиаденозин, - это C10H13N5O3, то есть 31 атом.)
Tripleee
См. Также biostars.org/p/5514
Ондра Жижка
За исключением пользователей slayton, Paul Amstrong и rauchen, все остальные ответы абсолютно неверны по своей сути или далеко не полны. В ответах пользователь (не может) упомянул методы сжатия или плохо объяснил. См. Мой ответ, чтобы прояснить 4-кратное уменьшение генома, как видно из многих ответов.
ZF007 01
Я голосую за то, чтобы закрыть этот вопрос как не по теме, потому что он здесь не по теме, должен быть на bioinformatics.stackexchange.com
Chris_Rands

Ответы:

68

Если вы доверяете таким вещам, вот что утверждает Википедия (из http://en.wikipedia.org/wiki/Human_genome#Information_content ):

2,9 миллиарда пар оснований гаплоидного генома человека соответствуют максимуму примерно 725 мегабайтам данных, поскольку каждая пара оснований может быть закодирована 2 битами. Поскольку отдельные геномы отличаются друг от друга менее чем на 1%, их можно сжать без потерь примерно до 4 мегабайт.

Оливер Чарльзуорт
источник
8
Чтобы добавить некоторый биологический комментарий, «гаплоид» здесь означает только одну копию каждой хромосомы. Контрольная сборка человека гаплоидна (и представляет собой мозаику из множества людей). Фактический индивидуальный геном будет диплоидным (по 2 копии каждой хромосомы, кроме X и Y), но опять же только вариант между двумя копиями в небольшом подмножестве сайтов.
Alex Stoddard
9
Подумал об этом в течение дня и понял следующее: если вы сохранили некоторую базовую ДНК человека, любую последующую человеческую ДНК нужно будет сохранить только как разницу между ней и базовым случаем. Для однополых образцов ДНК на 99,9% совпадает. А среди полов - 98,5%.
Коста
3
Также стоит помнить, что не вся информация, закодированная в парах оснований ДНК, также содержит эпигенетическую информацию.
Annarfych
это имеет смысл. пары оснований в основном четырехзначны. 4-мерное число - это 2 бита, поэтому удвойте размер. так что это 5,8 гигабит или 5,8 / 8 гигабайт, что составляет 0,725 ГБ или 725 МБ. «сжатие» возможно только потому, что вы можете сохранить разницу с отображенным геномом вместо сохранения всего вашего генома.
Дэйв Кузино
@Annarfych Это крайне вводит в заблуждение, поскольку эпигенетическая информация по определению не наследуется (несмотря на ошибочные утверждения об обратном в популярной прессе). Унаследованная информация хранится только в ДНК.
Конрад Рудольф
25

Вы не храните всю ДНК в одном потоке, большую часть времени она хранится в хромосомах.

Большая хромосома занимает около 300 МБ, а маленькая - около 50 МБ.


Редактировать:

Я думаю, что первая причина, по которой он не сохраняется в 2 бита на базовую пару, заключается в том, что это создаст препятствие для работы с данными. Большинство людей не знают, как его преобразовать. И даже когда предоставляется программа для преобразования, многим людям в крупных компаниях или исследовательских институтах не разрешается / не нужно спрашивать, или они не знают, как устанавливать программы ...

1 ГБ хранилища ничего не стоит, даже загрузка 3 ГБ занимает всего 4 минуты со скоростью 100 Мбит / с, и у большинства компаний скорость выше.

Другое дело, что данные не так просты, как вам говорят.

Например, метод секвенирования, изобретенный Craig_Venter, был большим прорывом, но имеет свои недостатки . Он не может разделить длинные цепи одной и той же пары оснований, поэтому не всегда на 100% ясно, есть ли там 8 А или 9 А. Вещи, о которых вам придется позаботиться позже ...

Другой пример - метилирование ДНК, потому что вы не можете хранить эту информацию в 2-битном представлении.

Rauschen
источник
2
+1 от меня. Однако я понятия не имею, что означает «большая» или «маленькая» хромосома?
Милан Бабушков
1
Эти числа не соответствуют тому, что говорит Википедия (см. Таблицу на en.wikipedia.org/wiki/Human_genome#Information_content ); Я не говорю, что вы ошибаетесь, но вы можете объяснить несоответствие?
Оливер Чарльзуорт,
Похоже, он цитирует Mbp (миллион пар оснований, каждая пара оснований является одной позицией в геноме), а не MB, который может предполагать 2-битное кодирование каждой позиции
Alex Stoddard
Некоторые элементы метилирования ДНК генома меняются в течение жизни организма. Включение данных о метилировании ДНК в геном человека было бы больше похоже на подробный снимок человека в конкретный момент, а не на общее описание человека. Хотя OP не уточнил, что они хотели.
cowlinator
12

Обычно каждая базовая пара занимает 2 бита (вы можете использовать 00, 01, 10, 11 для T, G, C и A). Поскольку в геноме человека около 2,9 миллиарда пар оснований, (2 * 2,9 миллиарда) бит ~ = 691 мегабайт.

Я не эксперт, однако на странице генома человека в Википедии говорится следующее:

Необработанный МБ:

  • Мужской (XY): 770 МБ
  • Женский (XX): 756 МБ

Я не уверен, откуда взялось их расхождение, но я уверен, что вы сможете это понять.

Пол Армстронг
источник
6
Реально требуется более 2 бит, поскольку в информации о последовательности хранятся другие базы ( Nнапример, где данные не отображаются и поэтому неизвестны). Нуклеотидные коды IUPAC включают больше стандартных четырех, и это может увеличить накладные расходы на хранение. ebi.ac.uk/2can/tutorials/aa.html
Алекс Рейнольдс,
@AlexReynolds неработающая ссылка: /
o0 '.
2
@AlexReynolds @ o0 ' bioinformatics.org/sms2/iupac.html - лучшая ссылка для этих кодов IUPAC. AIUI, конкретное "сканирование" генома требует более 2 бит из-за неточности, таким образом, Rдля A или G, Nдля любой базы, .для пробела и т. Д. Если бы мы могли правильно читать геном, это было бы всего 2 бита на базу .
skierpage
1
Х-хромосома единственная у женщин. У самцов также есть Y-хром. быть закодированным, что, как мы все знаем, отличается от X crhom.
ZF007 01
Это также зависит от того, как вы определяете мегабайт : двоичный 2 ^ 20 или метрический 10 ^ 6 байтов. Вы используете двоичный код, поэтому ваш номер ниже.
il - ya
8

Да, минимальный объем оперативной памяти, необходимый для всей ДНК человека, составляет около 770 МБ. Однако 2-битное представление непрактично. На нем сложно искать или делать какие-то вычисления. Поэтому некоторые математики разработали более эффективный способ хранения этих последовательностей оснований ... и использования их в алгоритмах поиска и сравнения, таких как, например, GARLI (www.bio.utexas.edu/faculty/antisense/garli/garli.html). Это приложение работает на моем ПК прямо сейчас, поэтому я могу сказать Вам ... что в нем практически хранится ДНК примерно в 1 563 МБ .

Филип Обертон, певец Ридло
источник
4

Большинство ответов, за исключением пользователей slayton, rauchen, Paul Amstrong, совершенно неверны, если речь идет о чистом хранилище один на один без методов сжатия.

Геном человека с 3 Гб нуклеотидов соответствует 3 Гб байтов, а не ~ 750 Мб. Сконструированный «гаплоидный» геном согласно NCBI в настоящее время имеет размер 3436687kb или 3,436687 ГБ. Проверьте здесь сами.

Гаплоид = одна копия хромосомы. Диплоид = две версии гаплоида. У человека 22 уникальных хромосомы x 2 = 44. 23-я мужская хромосома - это X, Y, всего 46. Суки 23 хром. есть X, X и, таким образом, всего 46.

Для мужчин это будет 23 + 1 хромосома в хранилище данных на жестком диске, а для женщин - 23 хромосомы, что объясняет небольшие различия, которые время от времени упоминаются в ответах. X хром. от кобелей равен X хром. от самок.

Таким образом, загрузка генома (23 + 1) в память осуществляется частями через BLAST с использованием построенных баз данных из fasta-файлов. Независимо от того, заархивированы ли версии или нет, нуклеотиды практически не сжимаются. Раньше одним из используемых приемов была замена тандемных повторов (GACGACGAC с более коротким кодированием, например, «3GAC»; 9 - 4 байта). Причина заключалась в экономии места на жестком диске (площадь пластин HDDD 500–2 ГБ с 7.200 об / мин и разъемами SCSI). Для поиска последовательности это также было сделано с запросом.

Если для хранения «кодированных нуклеотидов» будет 2 бита на букву, то для байта вы получите:

А = 00
С = 01
G = 10
Т = 11

Только так вы полностью выиграете от позиций 1,2,3,4,5,6,7 и 8 для 1 байта кодирования. Например, комбинация 00.01.10.11 (как байт 00011011) будет соответствовать «ACTG» (и отображаться в текстовом файле как нераспознаваемый символ). Одно только это отвечает за четырехкратное уменьшение размера файла, как мы видим в других ответах. Таким образом, размер 3,4 ГБ будет уменьшен до 0,85917175 ГБ ... ~ 860 МБ, включая требуемую на тот момент программу преобразования (23–4 МБ).

Но ... в биологии вы хотите иметь возможность что-то читать, поэтому сжатие с помощью gzip более чем достаточно. Разархивированный, вы все еще можете его прочитать. Если использовалось это байтовое заполнение, читать данные становится труднее. Вот почему fasta-файлы на самом деле являются текстовыми файлами.

ZF007
источник
1
Вы также можете сохранить его как картинку, аудиозапись или даже видео - и на это уйдет терабат. Но это не обязательно и минимально , как просили.
il - ya
@ il - ya ... Я упускаю то, о чем ты пытаешься сказать ... (я думаю, тебе нравится перемещать 250 км ленты TDK ... весом 600 кг, и перемотка занимает три часа)?
ZF007 09
1
Дело в том, что 1 из 4 базовых пар кодируется 2 битами информации. Вот сколько данных требуется для его кодирования - вы не можете кодировать меньше. Но вы можете закодировать его другим способом: вы можете использовать целый байт, или нарисовать картинку, занимающую несколько килобайт, или сделать аудиозапись. Все это будет по- прежнему позволяет хранить необходимую информацию, но это не будет необходимости или минимальное кодирования. Вы произвольно ввели критерии удобочитаемости (используя стандартный текстовый редактор), чего не задавали в исходном вопросе.
il - ya
К сожалению, в биологии это не работает. Метод общения между учеными - устный, бумажный или текстовый формат, который можно легко прочитать с экрана. В случае, если у вас одна пара оснований, достаточно заполнить байт нулями или единицами. Однако есть 4 базы (2 пары). В байте у вас есть 4 позиции для базовой пары и 4 позиции, которые указывают тип базовой пары. Сжатие данных работает, но людям нужна удобочитаемость. Один пиксель в коде RGB (3 значения и значение интенсивности) занимает 32 байта. Всего 8 бит на письмо. Таким образом, нет смысла делать из нее Мону Лизу, верно?
ZF007
6
ZF007, вы упустили мою мысль о минимальности. Возник вопрос: «Сколько памяти потребуется для хранения ДНК человека?» с более подробной информацией: «... Я ищу минимальную ценность, которая могла бы хранить ДНК любого человека». Вы пытаетесь ответить на другой вопрос , а именно: «Сколько памяти потребуется для хранения ДНК человека в читаемой форме, используемой биологами для передачи данных генома ?» если вы сжимаете читаемые текстовые данные с помощью хорошего алгоритма сжатия, это приведет к тому, что их размер станет меньше 2 бит на базовую пару.
il - ya
3

Геном человека содержит 2,9 миллиарда пар оснований. Итак, если вы представите каждую базовую пару в виде байта, это займет 2,9 миллиарда байтов или 2,9 ГБ. Возможно, вы могли бы придумать более творческий способ хранения пар оснований, поскольку для каждой пары оснований требуется всего 2 бита. Таким образом, вы, вероятно, могли бы хранить 4 пары оснований на байт, в результате чего общая сумма была меньше 1 ГБ.

Slayton
источник
биты ~ = байты. 2,9 миллиарда бит - это около 350 МБ
SDGuero
4
@SDGuero, пары оснований - это основание 4, а не основание 2, поэтому вам нужно как минимум 2 бита для представления пары оснований.
Slayton
BS на битовом жаргоне ... каждая нуклеотидная база состоит из 1 символа и, следовательно, 1 байта, независимо от используемой таблицы преобразования символов (AscII, UTF-8 и т. Д.); не включая 2-байтовую азиатскую кодировку.
ZF007 01
1
@ zf007 Пары оснований представлены ТОКЕНАМИ a, c, g и t. Жетон - это не то же самое, что и персонаж. Нет причин, по которым a нельзя закодировать как 00, c как 01, g как 10 и t как 11
MatBailie
1
Есть несоответствие; вы утверждаете, что вам нужен файл, читаемый человеком, которого нет в исходном посте.
MatBailie
3

Наша ДНК состоит из 4 нуклеотидных оснований: A, C, G, T, поэтому каждое основание в ДНК занимает 2 бита. Существует около 2,9 миллиарда баз, то есть около 700 мегабайт. Самое странное, что залил бы обычный диск с данными! стечение обстоятельств?!?

Мэттью МакГиннесс
источник
3

просто сделал это тоже. необработанная последовательность составляет ~ 700 МБ. если используется фиксированная последовательность хранения или алгоритм хранения фиксированной последовательности - и тот факт, что изменения составляют 1%, вычислено ~ 120 МБ с памятью perchromosome-sequenceoffset-statedelta. вот и все для хранения.

Betheguest
источник
1

Все ответы не учитывают тот факт, что nuDNA - не единственная ДНК, определяющая геном человека. мтДНК также передается по наследству и вносит дополнительные 16 500 пар оснований в геном человека, что в большей степени соответствует предположению Википедии о 770 МБ для мужчин и 756 МБ для женщин.

Это не означает, что геном человека можно легко сохранить на USB-накопителе емкостью 4 ГБ. Биты не представляют информацию сами по себе, это комбинация битов, которые представляют информацию. Таким образом, в случае нюДНК и мтДНК биты кодируются (не путать со сжатием) для представления белков и ферментов, которые сами по себе потребуют большого количества МБ необработанных данных, особенно с точки зрения функциональности.

Пища для размышлений: 80% генома человека называется «некодирующей» ДНК. Неужели вы действительно верите, что все человеческое тело и мозг могут быть представлены всего лишь в 151–154 МБ необработанных данных?

ar18
источник
-3

Существует только 2 типа пар оснований: цитозин может связываться только с гуанином, а аденин может связываться только с тимином, поэтому каждую пару оснований можно рассматривать как отдельный бит. Это означает, что для всей цепи ДНК Человека размером ~ 3 миллиарда «бит» будет около 350 мегабайт.

Linux Fanboy
источник
2
У вас есть 2 типа пар, и они могут быть двух направлений, поэтому вам нужно два бита для каждой пары. Вот почему в большинстве сообщений выше написано ~ 700 МБ, а не 350 МБ.
Trondster
-3

Одна база - T, C, A, G (в системе счисления с основанием 4: 0, 1, 2, 3) - кодируется двумя битами (а не одним), поэтому одна базовая пара кодируется четырьмя битами .

Генри К.О. Норман
источник
2
За исключением того, что базы в паре дополняют друг друга, поэтому не добавляйте никакой информации. Таким образом, как базовая, так и базовая пара могут быть закодированы двумя битами.
il - ya
Если у вас есть пятерка, чем вы ее дополните? "AC" "AG" "AT" все действительны. Точно так же, если у вас есть «T», «TG», «TC», «TA» действительны, так что вы делаете?
Роджер Йоханссон
1
@RogerJohansson Нет, в ДНК действительна только пара оснований «AT». То же самое для «TA», «CG» и «GC». Никакой другой комбинации пар оснований не существует.
Конрад Рудольф
@KonradRudolph существует как минимум девять пуринов ( en.wikipedia.org/wiki/Purine ). Все они могут использоваться для замены A или G. Это усложняет решение вопроса OP. Я согласен быть простым и придерживаться A, G, T и C.
ZF007 02
1
@ ZF007 Они существуют, но они нестабильно встречаются в геномах человека и поэтому не имеют отношения к хранению генома. Их биологическая значимость важна только в контексте мутаций (и только временно) и модификаций РНК. В частности (в контексте этого ответа) геномные данные не хранятся как «пары оснований», они хранятся как последовательность одиночных оснований, и каждая позиция может быть закодирована двумя битами. Это не теоретически, это то, как это делается на самом деле (за исключением того, что для большинства приложений генетические данные хранятся в (сжатом) формате ASCII, а не в битовом сжатии).
Конрад Рудольф