Я пытаюсь сделать уникальный набор строк, извлеченных из файла с помощью egrep с помощью sort -u, а затем сосчитать их. Около 10% строк (все 100 символов из алфавита [ATCG]) дублируются. Есть два файла, около 3 гигабайт каждый, 50% не имеют отношения, поэтому, возможно, 300 миллионов строк....