Мне нужен способ извлечения текста из всех типов документов MS Office (Word, Excel, Powerpoint) в Linux. Я предполагаю, что может быть несколько различных подходов для достижения этой цели, например, сценарий Bash или Python, или преобразование их в PDF, а затем извлечение текста с помощью такого инструмента, как pdftotext.
Кажется, это может быть обычным требованием. Существует ли установленная процедура или инструмент, позволяющий легко это сделать?
Наконец-то я нашел идеальный инструмент для разбора скриптов документов, это apache-tika, он может разбирать тысячи нетекстовых форматов в текст, что очень круто!
Получите Apache Tika здесь:
http://tika.apache.org/
(Пользователи Mac Homebrew:
brew install tika
)Интерфейс командной строки работает так:
tika --text something.docx > something.txt
источник
Abiword может конвертировать из командной строки любые форматы файлов, которые он знает.
Преобразовать из Word в простой текст:
abiword --to=txt myfile.doc
Создайте PDF из файла Word:
abiword --to=pdf myfile.doc
И так далее. Результатами в этих случаях будут myfile.txt или myfile.pdf. Если вы хотите указать имя вывода, вы можете сделать это тоже:
abiword --to=txt --to-name=output.txt myfile.doc
Конвертировать ODT в Word:
abiword --to=doc myfile.odt
Преобразовать слово в ODT:
abiword --to=odt myfile.doc
Справедливости ради других ответов следует отметить, что AbiWord использует wvWare для обработки документов Word, но даже домашняя страница wvWare рекомендует использовать AbiWord вместо этого для большинства преобразований.
Я ненавижу текстовые процессоры. Это основная причина, по которой я установил AbiWord.
Возможно, вас заинтересует unoconv , аналогичный инструмент, поддерживающий форматы, известные OpenOffice (включая электронные таблицы и т. П.), Но у меня нет опыта работы с ним лично.
источник
С LibreOffice вы можете сделать:
источник
Вы можете использовать CUPS (виртуальный принтер) и с помощью ld.
источник
wv - это одна из опций, и IIRC OpenOffice может сказать из командной строки экспортировать как pdf и выйти.
источник
Если вы хотите использовать Apache Tika в проекте Python, ознакомьтесь с этим сообщением в блоге .
источник
1.doc catdoc или antiword для файлов doc для конвертации вы можете использовать следующую команду catdoc file.doc> file или antiword file.doc> file
docx docx2txt
pdf файл emacs.pdf файл ctrl-x ctrl-s
источник
Docsplit является идеальным инструментом для извлечения текста из PDF. Это рубиновый камень. Поэтому вы должны установить ruby и gem в вашей системе Linux перед использованием команды docsplit.
Если в вашей системе нет рубина и драгоценного камня, следуйте инструкциям.
Для установки программного обеспечения вы должны быть пользователем root (при условии, что вы хотите, чтобы оно было доступно всем пользователям).
Установите ruby в Linux: yum установите ruby
Установите гем, пожалуйста, скачайте последний пакет гем, затем следуйте инструкциям
tar xzf rubygems-xxxx.tgz
cd rubygems-xxxx
ruby setup.rb
Теперь, когда RubyGems установлен, у вас должна быть команда gem (gem - команда, используемая для взаимодействия с системой пакетов RubyGems). Проверьте это, запустив:
список драгоценных камней
Теперь перейдите к следующему шагу, чтобы установить гем docsplit, перейдите на следующий сайт. http://documentcloud.github.com/docsplit/
источник