Я пытаюсь внести некоторые исправления в документ PDF, сгенерированный из латекса.
Чтобы сделать исправления, я сначала копирую текст из PDF.
Случается так, что в сгенерированном PDF слова обрезаются справа, когда они не соответствуют размеру поля, например, когда слово «абзац» слишком велико, чтобы уместиться, оно будет обрезано так:
word1 word2\n
word3 para-\n
graph word4\n
Кроме того, разрывы строк не делаются, когда это необходимо, но всегда в конце текста.
У меня нет доступа к оригиналу. Так что это проблема, когда я копирую текст для редактирования где-то, так как в итоге получаю кучу ненужных разрывов строк и разрывов слов (не знаю, как эти последние на самом деле называются).
Есть ли способ правильно скопировать текст из файла PDF?
Это то, что PDF-файл делает для того, чтобы слова аккуратно помещались на странице, без текстового выравнивания?
источник
Ответы:
Эти два регулярных выражения выполняются в том порядке, как должно работать.
источник