Вопросы с тегом «deduplication»

137
Есть ли простой способ заменить дубликаты файлов жесткими ссылками?

Я ищу простой способ (команда или серия команд, возможно, с участием find), чтобы найти дубликаты файлов в двух каталогах и заменить файлы в одном каталоге с жесткими ссылками файлов в другом каталоге. Вот ситуация: это файловый сервер, на котором несколько человек хранят аудиофайлы, каждый из...

14
Как скопировать файл без копирования его данных с помощью btrfs?

У меня нет опыта работы с btrfs, но он рекламирует возможность дублирования файлов. В моем приложении мне нужно будет дублировать целые деревья каталогов. Из того, что я узнал, btrfs только дедуплицирует в некоторых пост-сканированиях, а не сразу. cpКажется, даже простое использование не вызывает...

9
Существуют ли сценарии дедупликации, которые используют btrfs CoW для дедупликации?

В Linux существует множество инструментов для дедупликации, см., Например, эту вики-страницу . Практически все сценарии выполняют только обнаружение, распечатку дубликатов имен файлов или удаление дубликатов файлов путем привязки их к одной копии. С появлением btrfs появится еще один вариант:...

9
Как найти повторяющиеся строки во многих больших файлах?

У меня есть ~ 30 тыс. Файлов. Каждый файл содержит ~ 100 тыс. Строк. Строка не содержит пробелов. Строки в отдельном файле сортируются и дублируются бесплатно. Моя цель: я хочу , чтобы найти все все повторяющиеся строки через два или более файлов , а также имена файлов, содержащие дублированные...

8
Дедупликация на уровне раздела

Какие существуют решения для блочного уровня или более детальной дедупликации? Существуют файловые - с подходом «Копирование при записи». Я ищу на уровне блоков «копирование при записи», чтобы я мог периодически искать общие блоки или - предпочтительно - части файлов, объединять их и помечать для...

8
Удалить повторяющиеся строки из файла, который содержит метку времени

Этот вопрос / ответ имеет несколько хороших решений для удаления идентичных строк в файле, но не будет работать в моем случае, так как в противном случае дублирующиеся строки имеют временную метку. Можно ли сказать awk игнорировать первые 26 символов строки при определении дубликатов? Пример: [Fri...

8
Сделать tar (или другой) архив с выравниванием блоков данных, как в исходных файлах для лучшей дедупликации на уровне блоков?

Как можно создать tar-файл, чтобы содержимое tar-файлов было выровнено по блокам, как в исходных файлах, чтобы можно было извлечь выгоду из дедупликации на уровне блоков ( https://unix.stackexchange.com/a/208847/9689 ) ? (Правильно ли я понимаю, что ничто не свойственно формату tar, который мешает...