Сканер дубликатов файлов

2

У меня есть сеть хранения 15 ТБ, и сейчас у меня осталось около 2,5 ТБ (из-за большого количества дубликатов). Я пробовал много сканеров, но у меня был небольшой успех, в конце концов они все терпят крах из-за огромного количества данных. Есть ли какая-нибудь известная вам программа, которая сможет справиться с такими большими нагрузками? Меня не волнует платформа, на которой он работает.

Спасибо.

Reid
источник
По-разному. Например, если у вас есть копия Windows Server 2008 R2 (я забыл, нужен ли вам конкретный SKU, извините!), То в ней есть некоторые средства управления файлами, которые могут генерировать именно такие отчеты. Если бы мне приходилось собирать один из них вместе, я бы, вероятно, сделал что-то ужасное с Perl и хэшем, сериализовав хэши в файлы, основываясь на том, что я не знаю букв алфавита или чего-то еще. Было бы весело.
Марк Аллен
У меня есть Windows Server 2008 R2, однако я не использовал его некоторое время после того, как мы переключились на серверы Linux. Вы проходите через это?
Рейд
1
Что программа должна делать с дубликатами?
Der Hochstapler
1
Я бы сказал, давайте начнем с их поиска. После этого мне нужно будет найти какой-то способ (самостоятельно написанный сценарий), чтобы сравнить все метаданные, а затем сделать резервную копию файлов на некоторых резервных HD-дисках и затем удалить их с серверов.
Рейд
2
Какие программы вы пробовали без успеха?
Скотт МакКленнинг

Ответы:

2

Если вы еще этого не сделали, вы можете обойти свою проблему, втиснув больше оперативной памяти в машину, на которой работает детектор дубликатов (при условии, что она еще не исчерпана). Вы также можете обойти свою проблему, разделив оставшиеся файлы на подмножества и сканируя пары этих подмножеств, пока не попробуете каждую комбинацию. Однако, в долгосрочной перспективе, это не может быть проблемой, лучше всего решаемой с помощью программы обнаружения дубликатов, которую вы должны периодически запускать.

Вы должны посмотреть на файловый сервер с дедупликацией данных . В двух словах, это будет автоматически хранить только 1 физическую копию каждого файла, при этом каждая «копия» будет жестко связана с одним физическим файлом. (Некоторые системы фактически используют дедупликацию на уровне блоков, а не дедупликацию на уровне файлов, но концепция та же.)

Более современные файловые системы, такие как ZFS , BTRFS и lessfs , поддерживают дедупликацию, как и ОС устройства OpenDedup fileserver. Одна или несколько из этих файловых систем уже могут быть доступны на ваших серверах Linux. Windows Storage Server также имеет дедупликацию. Если у вас есть деньги для решения этой проблемы, некоторые коммерческие решения SAN / NAS имеют возможность дедупликации.

Имейте в виду, однако, что дедупликация не обязательно поможет с небольшими, слегка измененными версиями тех же файлов. Если люди засоряют ваши серверы несколькими версиями своих файлов повсюду, вы должны попытаться заставить их лучше организовать свои файлы и использовать систему контроля версий - которая сохраняет только исходный файл и цепочку инкрементных различий.

Обновить:

64 ГБ должно быть достаточно для кэширования не менее 1 миллиарда записей пути файла контрольной суммы в физической памяти, при условии, что 128-разрядные контрольные суммы и средние метаданные (путь файловой системы, размер файла, дата и т. Д.) Не превышают 52 байта. Конечно, ОС начнет пейджинг в какой-то момент, но программа не должна аварийно завершить работу, то есть, если сам механизм поиска дубликатов файлов является 64-битным приложением.

Если средство поиска дубликатов файлов является только 32-разрядной программой (или если это сценарий, работающий на 32-разрядном интерпретаторе), количество файлов, которые вы можете обработать, может быть значительно меньше, если PAE не включен: больше порядка 63 миллионов (4 ГБ / (128 бит + 52 байта)) при тех же предположениях, что и раньше. Если у вас более 63 миллионов файлов, вы используете контрольную сумму большего размера или если средние метаданные, кэшируемые программой, превышают 52 байта, то вам, вероятно, просто нужно найти 64-битный искатель дубликатов файлов. В дополнение к программам, предложенным mgorven (которые, как я полагаю, доступны в 64-разрядной версии или, по крайней мере, их можно легко перекомпилировать), существует 64-разрядная версия DupFiles для Windows.

грабить
источник
Я бы подумал, что 64 ГБ памяти DDR3 было достаточно хорошо ... У нас действительно есть зеркальные серверы хранения, поэтому другой сайт, использующий RSync. Моя проблема в основном в том, что другие люди делают копии больших презентаций или других файлов для резервного копирования или иным способом. После того, как пространство стало ограниченным, мы научили наших сотрудников «лучше убирать», но в то же время ущерб уже нанесен.
Рейд
Спасибо за информацию. Настройка файлового сервера с поддержкой дедупликации и простая передача файлов на него позволят эффективно объединить все дубликаты и автоматически разрешат случаи, когда пользователи делают копии своих файлов. Сейчас это может быть непрактичным, но вы должны учитывать это при следующем расширении хранилища. Я подумал о другой проблеме, которая может иметь отношение к сбоям поиска дубликатов файлов, а может и нет, и добавил ее в свой ответ.
ограбить
2

Вы пробовали rdfind , fdupes и findup из fslint ?

mgorven
источник
Findup - единственный из вашего списка, который я пробовал, но я дам ему попытку с легкой установкой Linux на виртуальном кластере. Спасибо.
Рейд
Это древний пост, но, пожалуйста, подумайте над расширением ответа. Просто указание на продукт не считается ответом по нынешним стандартам, потому что оно ничего не говорит о том, почему это хорошее решение или как его решить. Хорошее руководство по рекомендации программного обеспечения здесь . Благодарю.
fixer1234