Я использую pdftotext (часть poppler-utils), чтобы конвертировать PDF документы в текст. По большей части это работает, но я хотел бы, чтобы между пустыми абзацами вставлялись пустые строки, а не смешивались.
Есть ли способ получить pdftotext для этого? А если нет, есть ли еще одна утилита pdf to text, которая может это сделать?
pdf
conversion
Дан
источник
источник
PDF to audio software for academic papers?
softwarerecs.stackexchange.com/questions/10640/…Ответы:
Вы можете попробовать
ebook-convert
от Калибра.Во всяком случае, я бы сказал, что ошибки в другом направлении: слишком много разрывов строк.
Еще одна вещь, которую я определенно рассмотрю, это преобразование в HTML с использованием pdfreflow , а затем преобразование HTML в TXT.
источник
ebook-convert
не может конвертировать многостолбцовый макет, он объединяет столбцы в один столбец. Для многостолбцовой разметкиpdftotext
выдает гораздо лучший результат. Дополнительные ограничения описаны в manual.calibre-ebook.com/conversion.html#convert-pdf-documents .Если вы используете pdftotext, вы можете использовать
-layout
флаг, чтобы сохранить расположение текста на страницах вашего входного pdf-файла:источник
-r
(разрешении, по умолчанию 72 dpi)Как фанат открытого исходного кода (и автоматизации) я не хочу говорить это, но лучшие результаты, которые я только что получил (на довольно большом, сложном PDF), - это открыть его в Adobe Reader, а затем выбрать «Файл | Сохранить как текст».
(Я готовлюсь к экспериментам по анализу текста, а не как к читателю, но я думаю, что мой первый и второй выбор будут одинаковыми.)
Я сравнивал выходные данные бок о бок. Мой второй выбор - ebook-convert.
Adobe : оставлено в FF для разрыва страниц, оставлено в номерах страниц, не преобразует заголовки / абзацы в отдельные строки, но имеет фиксированные дефисы. Спам, который был спрятан в PDF, не получил вывод. Правильно получил большие заглавные буквы в начале секций, например «The», а не «T он» или даже «T он».
ebook-convert : оставлено в номерах страниц и скрытый мусор в верхнем / нижнем колонтитуле (но без FF). Преобразует большинство абзацев в одну строку. Те, которые он пропустил, имеют двойной интервал! Пули не всегда совпадают с текстом. Правильно получил «The» в начале главы.
pdftotext (без --layout) : неплохо, пули выстраиваются, но шум верхнего / нижнего колонтитула. ФФ там. Дефисы удалены. Худшие для начала главы большие буквы: "T \ n \ nhe".
pdftotext (с --layout) : похожие, но больше отступов. «Т он» для начала главы.
pdftohtml >> pdfreflow >> htmltotext : он удаляет номера страниц, но все еще остается ненужным в верхнем / нижнем колонтитуле. «Т он» для начала главы. Дефисы удалены. (Он использует несколько строк в абзаце, но они не такие же разрывы строк, как в других версиях!)
источник
ebook-convert
работал нормально.Если у вас есть учетная запись Google, вы можете использовать Документы Google для загрузки PDF и преобразования его в редактируемый текст.
источник
Я также попробовал pypdf и сравнил его с pdftotext в двух документах. У него было больше разрывов строк и разделены некоторые названия разделов (ССЫЛКИ были ССЫЛКИ).
pdf2txt вывел полный мусор.
Я часто использую pdfBox (java), если pdftotext испортит вывод. Вы можете попробовать.
источник