Grep в Microsoft Word?
Я хотел бы вытащить все строки с заданной строкой из текстового документа. В мире Unix ... grep делает это без сбоев. Windows менее очевидна для меня.
microsoft-word
grep
fretje
источник
источник
catdoc
segfaults в каждом.doc
/.docx
файле, который я даю,antiword
просто говорит мне, что мой документ "не является документом Word". Знаете ли вы какие-либо другие варианты?docx2txt
существует в репозиториях Debian - может работать. Я также изучил бы утилиту преобразования формата командной строки OpenOffice / LibreOffice (unoconv), которую можно использовать для той же цели.Я знаю, это звучит примитивно, но что мешает вам сохранить файл в формате .txt, а затем разорвать его по своему вкусу.
источник
Что означает «линия» в контексте Word? Отображаемая строка, что изменится, если вы сделаете что-нибудь с форматированием страницы? Параграф? Что-то другое?
С помощью функций поиска и замены Word вы можете делать кучу вещей, включая изменение форматирования и другие неочевидные вещи, но все они будут действовать только на сам текст find-what, а не на любой окружающий текст.
источник
Есть поддержка документов MS - Word, PowerPoint, Excel - в CRGREP, которую я разработал как бесплатный инструмент с открытым исходным кодом. Он также включает другие трудные для поиска вещи, такие как таблицы базы данных, изображения, аудио, архивы, PDF и их комбинации. Веселиться.
источник
PowerGREP сделает именно это для вас и быстро, но не бесплатно. Хотя, на мой взгляд, это стоит каждой копейки. Плюс, есть 30-дневная бесплатная пробная версия.
источник
Недостаточно представителей, чтобы комментировать, но я вижу, что эта проблема с документами и документами обсуждалась, поэтому любой, кто преследует тему (как и я), может найти это полезным.
Вам не нужен специальный инструмент для файлов DOCX. docx - это сжатые файлы XML.
Чтобы извлечь и удалить XML, попробуйте что-нибудь на основе
из командной строки фу
источник