Как преобразовать файл pdf в файл odt?

32

Я хочу преобразовать .pdfфайл в .odtфайл, чтобы потом можно было преобразовать его в .docфайл. Есть ли программное обеспечение / скрипт, который может сделать это. Я попытался скопировать содержимое .pdfфайла и вставил его в liberoffice writer, форматирование не сохранилось.

Документ является конфиденциальным, поэтому я бы предпочел не использовать какой-либо онлайн-сервис для конвертации.

Любая помощь высоко ценится.

Анкит
источник
Связанный (но не дубликат!): Как преобразовать ODT в PDF?
Элия ​​Каган
1
По конкретным вопросам LIBREOFFICE / OpenOffice я рекомендую ask.libreoffice.org
Bucic

Ответы:

15

Меня тоже раздражало отсутствие бесплатного конвертера PDF в ODT. Мне даже не нужно ничего сложного. Просто инструмент, который генерирует файлы ODT, которые я затем могу аннотировать в LibreOffice (например, для заполнения форм).

Я знаю, как сделать это вручную, преобразовав PDF-документ в графические файлы и затем импортировав их в LibreOffice, но это довольно быстро становится утомительным.

Итак, я наконец-то написал небольшой скрипт для оболочки, который автоматически выполняет все необходимые шаги. Вы можете найти его на https://github.com/gutschke/pdf2odt

Он может принимать любое количество файлов PDF и изображений в качестве входных данных и генерирует ODT-файл, который можно открывать и редактировать в LibreOffice. Изображения отображаются в качестве фона страницы, поэтому вы можете свободно писать над ними. Каждое изображение связано со своим собственным стилем страницы. Помните об этом при вставке разрывов страниц и при необходимости корректируйте стиль страницы.

Я тестировал скрипт на Linux и Mac. Учитывая, что для этого требуется всего лишь несколько достаточно стандартных инструментов, он должен быть достаточно переносимым.

Gutschke
источник
Этот скрипт делает скриншоты каждой страницы и выводит их в целевой формат, спасибо за скрипт Gutschke
Оливер
Я использовал pdf2ooнесколько лет назад, но теперь он производит поврежденные файлы для LibreOffice. Этот скрипт делает это и многое другое - спасибо!
eacousineau
3
Сценарий pdf2odt, к сожалению, преобразуется в формат изображения, который используется в качестве фона ODT. Не ожидайте, что сможете «редактировать» любой оригинальный текст.
Ричард Элкинс,
13

Вы можете взглянуть на PDF Utilities(poppler-utils через Synaptic или apt-get), который включает pdftotext :

Poppler - это библиотека рендеринга PDF, основанная на Xpdf PDF viewer.

Этот пакет содержит утилиты командной строки (на основе Poppler) для получения информации о документах PDF, преобразования их в другие форматы или манипулирования ими:
* pdfdetach - перечисляет или извлекает внедренные файлы (вложения)
* pdffonts - анализатор шрифтов
* pdfimages - экстрактор изображений
* pdfinfo - информация о документе
* pdfseparate - инструмент извлечения страниц
* pdftocairo - конвертер PDF в PNG / JPEG / PDF / PS / EPS / SVG с использованием Cairo
* pdftohtml - конвертер PDF в HTML
* pdftoppm - PDF в PPM / PNG / JPEG конвертер изображений
* pdftops - конвертер PDF в PostScript (PS)
* pdftotext - извлечение текста
* pdfunite - инструмент объединения документов

Конечно, успех будет зависеть от того, как был создан файл PDF. Если вы получаете то , что вы хотите , как текстовый файл, вы можете затем сохранить , что в качестве .odt файла.

Изменить: я забыл предоставить источник цитаты. Это из вкладки описания в Synaptic дляPDF Utilities (based on Poppler).


источник
3
Из этого списка, pdftohtmlдолжно быть лучше всего подходит для задачи, потому что HTML может нести форматирование. Затем HTML может быть преобразован в ODT или DOC.
imz - Иван Захарящев
10

LibreOffice способен импортировать .pdfфайлы. Просто откройте его в текущей версии LibreOffice для достижения наилучших результатов. Однако он откроет документ как чертеж, и вы сможете преобразовать его только в один из поддерживаемых форматов изображений, а не в документ Writer.

Естественно, не все форматирование сохраняется, но, по крайней мере, некоторые.

клещи
источник
1
Я пробовал это недавно, и это просто ужасно, это не спасает форматирование даже немного. Более того, это делает текст вообще нечитаемым.
Привет-Ангел
3

Если пакет poppler-utils установлен, приведенный ниже скрипт Nautilus (который будет помещен в папку ~ / .gnome2 / nautilus-scripts как исполняемый файл) поможет преобразовать PDF-файл в HTML (параметр «-i» можно удалить, чтобы включить изображения), который затем можно открыть с помощью LibreOffice Writer и сохранить как ODT, хотя успех преобразования форматирования во многом зависит от того, как создается PDF.

http://ubuntuone.com/6xI1afyu6QdQvgdCGn0kym

Сади
источник
Спасибо за этот полезный скрипт. Просто небольшое замечание (из man pdftohtml): -noframes : generate no frames. Not supported in complex output mode.Так -noframesчто не будет никакого эффекта с -cсетом.
Glutanimate
2
Спасибо, я удалил эту избыточную опцию из моего скрипта сейчас. Сценарий bash на основе zenity для предоставления графического интерфейса для всех этих опций был бы очень хорош ;-)
Sadi
#MHC, кажется, эта информация неверна; если мы не включаем -noframes, мы получаем отдельные HTML-файлы для страниц PDF; поэтому я снова вставил его в свой сценарий.
Сади
Это странно. Должна быть ошибка в документации. Я изменю свою копию сценария соответственно. Спасибо за головы!
Glutanimate
3

Попробуйте Калибр. Он конвертируется в HTML, а затем в другие форматы. Он отлично справился с большим (183 страниц) файлом, который в противном случае пришлось бы печатать.

В моем случае я конвертировал его в epub, но для удовольствия просто конвертировал его в .docx, что получилось очень хорошо.

Кристофер
источник