Может кто-нибудь предложить хорошую утилиту обнаружения дублирования фотографий, которая хорошо работает, когда я имею дело с данными объемом около 100 ГБ (собранными за эти годы)?
Я бы предпочел что-то, что работает на Ubuntu.
Заранее спасибо!
Изменить: Есть ли инструмент, который поможет мне реорганизовать мою коллекцию и удалить дубликаты, как только они были обнаружены?
Edit2: сложная часть состоит в том, чтобы выяснить, что делать, когда у меня есть вывод, состоящий из тысяч дублирующихся файлов (например, вывод fdupes).
Это не очевидно, если я все еще могу безопасно удалить каталог (то есть, если каталог может содержать уникальные файлы), какие каталоги являются подмножествами других каталогов и так далее. Идеальный инструмент для этой проблемы должен уметь определять дублирование файлов и затем предоставлять мощные средства реструктуризации ваших файлов и папок. Выполнение слияния с помощью жестких ссылок (как это делает fslint) действительно освобождает дисковое пространство, но не решает основную проблему, которая привела к дублированию, то есть с плохой организации файла / каталога.
источник
Ответы:
ImageMagick на помощь. Я думаю, что первым шагом к любому решению является уменьшение размера вашей коллекции. Если вы хотите сравнить фотографии по их содержанию , особенно когда некоторые из них являются слегка измененными версиями друг друга, очень хорошим началом будет сокращение их до миниатюр, а затем сравнение миниатюр. Это особенно полезно, когда вы хотите найти почти одинаковые фотографии и «игнорировать» несущественные различия во время сравнения.
На высоком уровне я предлагаю вам:
1- использовать инструмент mogrify ImageMagick, чтобы превратить фотографии в миниатюры. Это займет некоторое время, но сделает шаги сравнения намного быстрее и точнее.
2- Используйте инструмент сравнения ImageMagick, который позволяет вам установить порог для сравнения, т.е. он позволяет вам находить фотографии, которые похожи на 85%. Вы хотели бы провести контролируемый эксперимент, чтобы найти пороговое значение, которое вам больше всего нравится.
источник
Geeqie с открытым исходным кодом просмотра фотографий и организатор имеет мощную функцию поиска дубликатов . Он может использовать несколько разных стратегий для поиска дубликатов:
Это дает список результатов, который может включать в себя эскизы, чтобы вы могли подтвердить вручную.
Это будет , вероятно , будет медленным для тысяч файлов, но я думаю , просто использовать его и дать ему поработать в течение нескольких дней или что - то, вероятно , меньше усилий , в целом , чем найти или сделать что - то специально для случая - если матч контрольной суммы не все , что вам нужно.
источник
Есть небольшая утилита под названием "fdupes", которая может делать то, что вы хотите?
Есть также другая утилита под названием "fslint", которую вы тоже можете попробовать. (У этого есть GUI).
источник
fdupes
- есть возможность удалить дубликаты. askubuntu.com/a/476732dupeGuru Picture Edition - настраиваемый инструмент поиска дубликатов изображений для Windows, Mac OS X и Linux.
Существует несколько версий dupeGuru (стандартные, музыкальные и графические издания), а редакция изображений позволяет вам находить визуально похожие изображения с помощью алгоритма сравнения с растровыми изображениями , среди других методов (таких как временная метка исходного изображения EXIF или просто идентичные файлы) ,
У него есть множество других полезных функций, таких как исключенные папки, поддержка библиотек iPhoto / Aperture и значительная настройка того, как он обнаруживает дубликаты и что с ними делает.
источник
Что вы имеете в виду под дубликатами фотографий? Вы имеете в виду файлы, которые идентичны, скажем, просто скопированы дополнительное время или два? или вы имеете в виду фотографии, которые «выглядят» одинаковыми.
Если вы имеете в виду идентичные файлы, вы можете использовать 'shasum' для всех файлов, затем упорядочить результаты и найти уникальные строки с 'uniq' и запустить 'diff', чтобы увидеть, что было удалено. Все просто в оболочке Ubuntu.
источник
Существует приложение под названием «bleachbit», которое находит дубликаты файлов по размеру, имени и другим фильтрам. Вы можете установить его из менеджера пакетов synapctic в Ubuntu.
источник