Инструмент командной строки для поиска файла DOCX под MS DOS или Cygwin

2

Есть ли инструмент командной строки, который может искать .docxфайл под MS DOS или Cygwin?

Я попробовал Grep, он не работает, .docxа работает нормально с .txtфайлом.

Я знаю , что всегда может преобразовать .docxк .txt1 , то поиск с помощью Grep, но мне интересно:

Есть ли командный инструмент, который я могу искать прямо в командной строке?

OP edit: Позже я узнал, что самый простой способ получить grep - это на самом деле преобразовать эти docx в txt, а затем grep поверх них.

Gob00st
источник

Ответы:

3

Существует множество библиотек, позволяющих читать или иным образом манипулировать файлами DOCX. Думая Apache POI , или питона-DOCX , например. Я не знаю, существует ли уже обертка, которая позволила бы вам создавать DOCX, но это, безусловно, не составило бы особого труда при использовании POI (у меня нет опыта работы с python-docx. Возможно, это еще более быстрое решение). .).

РЕДАКТИРОВАТЬ:

Также, проще, вы можете разархивировать DOCX (потому что на самом деле это всего лишь ZIP-файл) и просматривать содержимое, как предлагается здесь .

Joanis
источник
спасибо за ссылки, но они утилиты командной строки?
Gob00st
Общий совет: попробуйте сохранить текстовую версию вашего документа источника. Будь то LaTeX, XML, необработанный текст или другие легко разбираемые форматы. Очень помогает для контроля версий и поиска по многим файлам.
Джоанис
@ Gob00st: Ну, для последнего предложения, если у вас есть распаковка командной строки, вы можете пойти. Я только что проверил мой установщик Cygwin, и вы можете установить в unzipлюбое время, чтобы завершить набор инструментов unzip + grep.
Джоанис
спасибо за совет, но это не для моего проекта, я просто пытаюсь быстрее найти текст в некоторых документах MS без необходимости открывать каждый из них.
Gob00st
@M: я не знал, что это zip-файл ... Но я только что разархивировал один docx-файл, и теперь он больше похож на xmls-файлы. Дело в том, что я хочу иметь возможность поиска по большому количеству файлов docx, поэтому я пытался использовать grep, который прекрасно работает, когда я ищу много файлов xml / txt ...
Gob00st