Читайте файл MS Word (doc) постранично

1

Есть ли способ заставить wvWare (или, возможно, какой-либо другой инструмент командной строки или библиотеку Python) читать файл документа постранично? Я не могу найти ничего в руководстве wvWare, ни в Abiword, Antiword или catdoc.

Лео
источник
что такое Wvware и Wmware?
Прасанна
@Prasanna Извините, должно быть wvWare. wv - это библиотека для просмотра старых docфайлов Microsoft Word ( ). Он используется, например, OpenOffice, LibreOffice и Abiword, так что я думаю, это своего рода библиотека по умолчанию.
Лев
Я знаю, что у Adobe Reader есть возможность читать вслух страницы. Может быть, вы можете конвертировать ваши файлы документов в PDF и читать страницу за страницей (даже слово за словом)
Prasanna
1
Безумно уродливый способ сделать это - поискать ^ L в исходном документе и выяснить, где в тексте они встречаются (документы Word, отличные от docx, в основном представляют собой простой текст).
Баррикартер
1
^ L - это control-L, код символа 12, который иногда называют «переводом формы» («символ перевода строки» - ^ J, двумя символами ранее). Если вы посмотрите на необработанный документ Word в emacs (или в любом редакторе, который показывает управляющие коды), вы увидите один из них в конце каждой страницы.
Баррикартер

Ответы:

1

Безумно уродливый способ сделать это - найти ^ L в исходном документе и выяснить, где в тексте они встречаются (документы Word, отличные от docx, в основном представляют собой простой текст: иногда я использую stringsкоманду для чтения содержимого).

^ L - это control-L, код символа 12, который иногда называют «подачей формы». Если вы посмотрите на необработанный документ Word в emacs (или в любом редакторе, который показывает управляющие коды), вы увидите один из них в конце каждой страницы.

barrycarter
источник