Дедупликация на уровне блоков в Linux

10

NetApp обеспечивает дедупликацию на уровне блоков (ASIS). Знаете ли вы какую-либо файловую систему (даже основанную на FUSE) в Linux (или OpenSolaris, * BSD), которая обеспечивает такую ​​же функциональность?

(Меня не интересует ложная дедупликация, такая как жесткие ссылки).

Benoît
источник

Ответы:

6

Проверьте lessFS, файловую систему с дедупликацией данных, для Linux. Это все еще в бета-версии, но вы можете попробовать это:

http://www.lessfs.com/

С Уважением,

М.В.

MV.
источник
Превосходно ! Это все еще бета, но это определенно что-то для начала.
Бенуа
7

Дедупликация поступает в ZFS на OpenSolaris, но эта функциональность в настоящее время недоступна.

Он был прототипирован Джеффом Бонвиком и Биллом Муром прошлой зимой, и они работают над его интеграцией этим летом. Так что он должен быть доступен в следующей версии OpenSolaris или раньше, если вы хотите поиграть с веткой разработки.

3dinfluence
источник
Смотрите ответ @ jlliagre - он доступен сейчас.
Джеймс Мур
4

Для людей, которые могут быть незнакомы с дедупликацией данных, это метод, при котором данные анализируются на уровне файлов (или блоков, я полагаю), и где идентичные файлы / блоки в файловой системе заменяются меньшим токеном. Это приводит к значительному уменьшению эффективного размера диска. Это можно считать формой копирования при записи . Прочитайте вики-страницу об этом.

В Linux не существует файловой системы, которая могла бы выполнять дедупликацию, файловый или блочный уровень. Такой зверь был бы полезен, хотя и довольно интенсивно занимал процессор.

Мэтт Симмонс
источник
4

Дедупликация теперь доступна с ZFS на OpenSolaris (сборка 128a и новее).

jlliagre
источник
2

Год спустя, но вот решение для OpenBSD под названием Epitome: http://www.peereboom.us/epitome/ . При условии, что это либеральное лицензирование, оно вполне может превратиться в ядро ​​Linux.


источник
1

Я только что опубликовал проект, над которым я работаю, который выполняет встроенную дедупликацию. Вы можете посмотреть на это здесь, если вы заинтересованы. Он основан на предохранителе и работает на Linux.


источник
0

Я не знаю ни одной бесплатной реализации дедупликации для Linux. Я видел, как некоторые поставщики хранилищ рекомендовали использовать систему HSM (иерархическое управление хранилищем) с VTL (библиотека виртуальных хранилищ), которая выполняет дедупликацию.

Вы также можете рассмотреть систему, подобную Occarina, которая не прозрачна, но может обеспечить лучшие результаты, чем дедупликация.

Джеймс
источник
0

так что ... нет новостей о дедупликации в Linux? opendedup может быть выбором, но, давая платформу Java, на которой он работает, я не хочу получать головную боль. Я попробовал это да, но эта машина Java и остальные не очень хорошо справляются с моими потребностями времени отклика хранилища и безопасности.


источник
0

Опция дедупликации доступна в Linux, в файловых системах BTRFS и ZFS. BTRFS изначально разрабатывается под Linux и имеет автономный инструмент дедупликации. Я не думаю, что в автономном режиме, вы должны размонтировать фс. Оффлайн означает, что активные данные не дедуплицированы. Но позже вы запустите инструмент для дедупликации мыслей, хранящихся сейчас. На самом деле, вероятно, инструмент находится в бета-версии. Другой способ - внутри ZFS. Доступно как FUSE и изначально: http://zfsonlinux.org/ , Это делает дедупликацию онлайн, к сожалению, это замедляет запись, потому что все должно быть рассчитано на лету. Вы можете онлайн и на это поведение. После выключения дедупликации все дедуплицированные данные будут по-прежнему сохраняться как дедуплицированные. Новые записи будут сохранены как «дублированные». Если вы хотите дедуплицировать эти данные в будущем, вы должны включить дедупликацию и перезаписать все «дублированные» файлы.

Смотрите документ, доступный на странице. Для ускорения записи и чтения вы можете добавить более быстрые устройства в пул хранения (особенно SDD-диски или, возможно, более быструю флеш-память USB, обратите внимание на надежность устройства).

Znik
источник
-2

DRBD делает именно это и делает это очень хорошо! Может сделать Master / Slave или Master / Master :-)

Антуан Бенкемун
источник
Не могли бы вы указать мне на документ по дедупликации? Я не могу найти его на drbd.org/home/feature-list .
Бенуа
Я думаю, что Антуан имел в виду «дублирование», что не совсем то, что вы искали, я знаю
Мэтт Симмонс
Боже мой, в чем разница между дублированием и дедупликацией?
Антуан Бенкемун
В своем комментарии я приведу краткое объяснение, но по сути дублирование отправляет данные на другой хост, где дедупликация удаляет идентичную информацию по всей файловой системе, увеличивая эффективное свободное пространство
Мэтт Симмонс