У меня есть несколько PDF-файлов, которые содержат лигатуры в тексте (например, ff
объединены в один символ, ff
).
Есть ли простой способ удалить их при копировании текста из PDF? (то есть, когда я ff
вставляю , я бы хотел, чтобы он был вставлен как ff
).
Я копирую много текста из этих PDF-файлов в ответы на Stack Overflow и нахожу лигатуры в лучшем случае противными (хорошо, я признаю, я действительно требователен :-P); лигатуры также не отображаются правильно при копировании в другие места (например, если я копирую их в Блокнот, они отображаются как блоки).
Я не могу изменить PDF-файлы.
Я использую как Adobe Acrobat Reader, так и Foxit Reader, но я буду готов попробовать новый PDF reader.
источник
Я ответил на аналогичный вопрос более подробно - почему текст `fi` обрезается при копировании из PDF или печати документа?
Вы можете заменить «разбитые» слова в скопированном тексте, если у вас есть отображение из разбитых слов в исходные слова. Я написал скрипт для генерации этого сопоставления, удалив лигатуры из слов и проверив, является ли полученное слово уникальным. Для моего словаря английских слов, 99,5% из всех возможных сломанных слов могут быть заменены, и 92,3% слов , которые содержат последовательность лигатуры (
ff
,fi
,fl
,ffi
илиffl
) могут быть восстановлены. Разница между этими двумя процентами связанно с удивительно большим количеством законных слов, которые создаются путем удаления связки из других законных слов (какbutterfly --> buttery
,fluffs --> us
иmisfits --> mists
).Вот CSV из гарантированно заменяемых «сломанных» слов (и слов, которыми они раньше были): http://www.filedropper.com/brokenligaturewordfixes
источник
Мой способ состоял в том, чтобы просто скопировать и вставить из PDF в блокнот (чтобы удалить любое форматирование), а затем из блокнота в Microsoft Word.
В Word все лигатуры заменены другими шрифтами форматирования.
Я использую поиск и замену для каждого из них (например, ^ l для ручного прерывания строки и ^ m для ручного прерывания страницы и т. Д., Вы можете легко найти все онлайн) и заменяю на правильную форму.
В 4 или 5 шагов я раскрываю все возможности довольно быстро. Также полезно удалить дополнительные прерывания абзаца (^ P)
источник