Есть ли способ сделать PDF только из слоя скрытого текста файла DjVu?
Я умею пользоваться
djvused myfile.djvu -e 'output-txt' > myfile.dsed
вывести сценарий DjVu, который включает координаты x, y каждого слова каждой страницы, но как мне преобразовать это в PS или PDF? Я уверен, что у кого-то есть сценарий.
Файл dsed начинается с таких S-выражений ( нажмите здесь для получения дополнительной информации ):
select; remove-txt
# -------------------------
select "myfile_0000.djvu"
set-txt
(page 108 107 1176 1725
(column 941 1694 1176 1725
(region 941 1694 1176 1725
(para 941 1694 1176 1725
(line 941 1694 1176 1725
(word 941 1694 999 1723 "another")
(word 1024 1696 1176 1725 "word")))))
(column 108 107 805 1519
(region 108 107 805 1519
(para 226 1491 701 1519
(line 226 1491 701 1519
(word 226 1491 701 1519 "example")))
(para 350 1370 534 1396
и т.д…
Спасибо
Самый простой способ сделать это - преобразовать DjVu в PDF (убедившись, что слой OCR поддерживается в PDF). Затем запустите:
где пользователь указывает
${input_pdf}
и${output_pdf}
.gs
удаляет (-dFILTERIMAGE
) все изображения иsed
делает так, чтобы PDF отображал скрытый текст OCR как видимый (изменяя3 Tr
команду PDF или «скрытый текст» на «0 Tr
или текст по умолчанию»). Последняяpdftk
команда не является строго необходимой, но первая - иначе,sed
она не смогла бы изменить команду PDFTr
.источник