Я ищу объем памяти в байтах (МБ, ГБ, ТБ и т. Д.), Необходимый для хранения одного генома человека. Я прочитал несколько статей в Википедии о ДНК, хромосомах, парах оснований, генах и имею некоторые приблизительные предположения, но прежде чем что-либо раскрывать, я хотел бы узнать, как другие подойдут к этой проблеме.
Альтернативный вопрос: сколько атомов содержится в ДНК человека, но это будет не по теме для этого сайта.
Я понимаю, что это будет приблизительное значение, поэтому я ищу минимальное значение, при котором ДНК любого человека может быть сохранена.
storage
bioinformatics
dna-sequence
genetics
Милан Бабушков
источник
источник
Ответы:
Если вы доверяете таким вещам, вот что утверждает Википедия (из http://en.wikipedia.org/wiki/Human_genome#Information_content ):
источник
Вы не храните всю ДНК в одном потоке, большую часть времени она хранится в хромосомах.
Большая хромосома занимает около 300 МБ, а маленькая - около 50 МБ.
Редактировать:
Я думаю, что первая причина, по которой он не сохраняется в 2 бита на базовую пару, заключается в том, что это создаст препятствие для работы с данными. Большинство людей не знают, как его преобразовать. И даже когда предоставляется программа для преобразования, многим людям в крупных компаниях или исследовательских институтах не разрешается / не нужно спрашивать, или они не знают, как устанавливать программы ...
1 ГБ хранилища ничего не стоит, даже загрузка 3 ГБ занимает всего 4 минуты со скоростью 100 Мбит / с, и у большинства компаний скорость выше.
Другое дело, что данные не так просты, как вам говорят.
Например, метод секвенирования, изобретенный Craig_Venter, был большим прорывом, но имеет свои недостатки . Он не может разделить длинные цепи одной и той же пары оснований, поэтому не всегда на 100% ясно, есть ли там 8 А или 9 А. Вещи, о которых вам придется позаботиться позже ...
Другой пример - метилирование ДНК, потому что вы не можете хранить эту информацию в 2-битном представлении.
источник
Обычно каждая базовая пара занимает 2 бита (вы можете использовать 00, 01, 10, 11 для T, G, C и A). Поскольку в геноме человека около 2,9 миллиарда пар оснований, (2 * 2,9 миллиарда) бит ~ = 691 мегабайт.
Я не эксперт, однако на странице генома человека в Википедии говорится следующее:
Необработанный МБ:
Я не уверен, откуда взялось их расхождение, но я уверен, что вы сможете это понять.
источник
N
например, где данные не отображаются и поэтому неизвестны). Нуклеотидные коды IUPAC включают больше стандартных четырех, и это может увеличить накладные расходы на хранение. ebi.ac.uk/2can/tutorials/aa.htmlR
для A или G,N
для любой базы,.
для пробела и т. Д. Если бы мы могли правильно читать геном, это было бы всего 2 бита на базу .Да, минимальный объем оперативной памяти, необходимый для всей ДНК человека, составляет около 770 МБ. Однако 2-битное представление непрактично. На нем сложно искать или делать какие-то вычисления. Поэтому некоторые математики разработали более эффективный способ хранения этих последовательностей оснований ... и использования их в алгоритмах поиска и сравнения, таких как, например, GARLI (www.bio.utexas.edu/faculty/antisense/garli/garli.html). Это приложение работает на моем ПК прямо сейчас, поэтому я могу сказать Вам ... что в нем практически хранится ДНК примерно в 1 563 МБ .
источник
Большинство ответов, за исключением пользователей slayton, rauchen, Paul Amstrong, совершенно неверны, если речь идет о чистом хранилище один на один без методов сжатия.
Геном человека с 3 Гб нуклеотидов соответствует 3 Гб байтов, а не ~ 750 Мб. Сконструированный «гаплоидный» геном согласно NCBI в настоящее время имеет размер 3436687kb или 3,436687 ГБ. Проверьте здесь сами.
Гаплоид = одна копия хромосомы. Диплоид = две версии гаплоида. У человека 22 уникальных хромосомы x 2 = 44. 23-я мужская хромосома - это X, Y, всего 46. Суки 23 хром. есть X, X и, таким образом, всего 46.
Для мужчин это будет 23 + 1 хромосома в хранилище данных на жестком диске, а для женщин - 23 хромосомы, что объясняет небольшие различия, которые время от времени упоминаются в ответах. X хром. от кобелей равен X хром. от самок.
Таким образом, загрузка генома (23 + 1) в память осуществляется частями через BLAST с использованием построенных баз данных из fasta-файлов. Независимо от того, заархивированы ли версии или нет, нуклеотиды практически не сжимаются. Раньше одним из используемых приемов была замена тандемных повторов (GACGACGAC с более коротким кодированием, например, «3GAC»; 9 - 4 байта). Причина заключалась в экономии места на жестком диске (площадь пластин HDDD 500–2 ГБ с 7.200 об / мин и разъемами SCSI). Для поиска последовательности это также было сделано с запросом.
Если для хранения «кодированных нуклеотидов» будет 2 бита на букву, то для байта вы получите:
А = 00
С = 01
G = 10
Т = 11
Только так вы полностью выиграете от позиций 1,2,3,4,5,6,7 и 8 для 1 байта кодирования. Например, комбинация 00.01.10.11 (как байт
00011011
) будет соответствовать «ACTG» (и отображаться в текстовом файле как нераспознаваемый символ). Одно только это отвечает за четырехкратное уменьшение размера файла, как мы видим в других ответах. Таким образом, размер 3,4 ГБ будет уменьшен до 0,85917175 ГБ ... ~ 860 МБ, включая требуемую на тот момент программу преобразования (23–4 МБ).Но ... в биологии вы хотите иметь возможность что-то читать, поэтому сжатие с помощью gzip более чем достаточно. Разархивированный, вы все еще можете его прочитать. Если использовалось это байтовое заполнение, читать данные становится труднее. Вот почему fasta-файлы на самом деле являются текстовыми файлами.
источник
Геном человека содержит 2,9 миллиарда пар оснований. Итак, если вы представите каждую базовую пару в виде байта, это займет 2,9 миллиарда байтов или 2,9 ГБ. Возможно, вы могли бы придумать более творческий способ хранения пар оснований, поскольку для каждой пары оснований требуется всего 2 бита. Таким образом, вы, вероятно, могли бы хранить 4 пары оснований на байт, в результате чего общая сумма была меньше 1 ГБ.
источник
Наша ДНК состоит из 4 нуклеотидных оснований: A, C, G, T, поэтому каждое основание в ДНК занимает 2 бита. Существует около 2,9 миллиарда баз, то есть около 700 мегабайт. Самое странное, что залил бы обычный диск с данными! стечение обстоятельств?!?
источник
просто сделал это тоже. необработанная последовательность составляет ~ 700 МБ. если используется фиксированная последовательность хранения или алгоритм хранения фиксированной последовательности - и тот факт, что изменения составляют 1%, вычислено ~ 120 МБ с памятью perchromosome-sequenceoffset-statedelta. вот и все для хранения.
источник
Все ответы не учитывают тот факт, что nuDNA - не единственная ДНК, определяющая геном человека. мтДНК также передается по наследству и вносит дополнительные 16 500 пар оснований в геном человека, что в большей степени соответствует предположению Википедии о 770 МБ для мужчин и 756 МБ для женщин.
Это не означает, что геном человека можно легко сохранить на USB-накопителе емкостью 4 ГБ. Биты не представляют информацию сами по себе, это комбинация битов, которые представляют информацию. Таким образом, в случае нюДНК и мтДНК биты кодируются (не путать со сжатием) для представления белков и ферментов, которые сами по себе потребуют большого количества МБ необработанных данных, особенно с точки зрения функциональности.
Пища для размышлений: 80% генома человека называется «некодирующей» ДНК. Неужели вы действительно верите, что все человеческое тело и мозг могут быть представлены всего лишь в 151–154 МБ необработанных данных?
источник
Существует только 2 типа пар оснований: цитозин может связываться только с гуанином, а аденин может связываться только с тимином, поэтому каждую пару оснований можно рассматривать как отдельный бит. Это означает, что для всей цепи ДНК Человека размером ~ 3 миллиарда «бит» будет около 350 мегабайт.
источник
Одна база - T, C, A, G (в системе счисления с основанием 4: 0, 1, 2, 3) - кодируется двумя битами (а не одним), поэтому одна базовая пара кодируется четырьмя битами .
источник