У меня много файлов, которые мне нужно отсортировать; и, к сожалению, есть много файлов с одним и тем же именем, но разным содержимым, и есть один и тот же контент с разными именами файлов.
Я думаю об использовании md5sum
для генерации контрольных сумм для файлов, но мне нужно знать - возможно ли, что два разных файла (т.е. разное содержимое) будут генерировать одну и ту же контрольную сумму?
Если это так, то насколько вероятно, что это произойдет?
Можно ли использовать две разные несвязанные (т.е. не принадлежащие к одной и той же «семье») программы контрольных сумм для генерации двух контрольных сумм - при условии, что два разных файла могут генерировать одинаковую контрольную сумму для любой из программ контрольных сумм, это никогда не случится с обоими сразу?
Ответы:
Два файла с одинаковым содержимым, но разными именами файлов: ( file1 и file2 ):
Два файла с различным содержанием, но одинаковыми именами файлов: ( file1 и file1 )
Из вики ,
Но алгоритм MD5 имеет свои недостатки.
Я бы порекомендовал использовать sha1 для вычисления контрольной суммы, поскольку создание коллизий не так просто при использовании алгоритмов sha1 . Создание контрольной суммы sha1 довольно просто, как вы можете видеть здесь .
источник
sha1
не относится к этой задаче; это имеет значение только тогда, когда дело касается безопасности .