Grep в Microsoft Word?

11

Grep в Microsoft Word?

Я хотел бы вытащить все строки с заданной строкой из текстового документа. В мире Unix ... grep делает это без сбоев. Windows менее очевидна для меня.

fretje
источник

Ответы:

10

С Cygwin (или доступом к машине с Linux) вы можете

antiword file.doc | grep "my phrase"

или же

catdoc file.doc | grep "my phrase"

Есть много конвертеров форматов файлов командной строки, чтобы аналогичным образом делать grep .

Чисто в Word решение может быть Ctrl + F (Найти), а затем Найти все - однако, я не уверен, есть ли во всех версиях MS Word кнопка Найти все .

Chronos
источник
2
Когда я увидел название вопроса, я подумал: «Ха! Это было бы хорошо, не так ли». Никогда больше я не должен недооценивать программистов GNU.
Phoshi
Самая последняя версия catdocsegfaults в каждом .doc/ .docxфайле, который я даю, antiwordпросто говорит мне, что мой документ "не является документом Word". Знаете ли вы какие-либо другие варианты?
детально
Ничего из того, что я использовал ... Быстрый поиск показывает, что docx2txtсуществует в репозиториях Debian - может работать. Я также изучил бы утилиту преобразования формата командной строки OpenOffice / LibreOffice (unoconv), которую можно использовать для той же цели.
Хронос
3

Я знаю, это звучит примитивно, но что мешает вам сохранить файл в формате .txt, а затем разорвать его по своему вкусу.

ладья
источник
2
Наличие сотен из них для этого, вот что.
2013 года
1

Что означает «линия» в контексте Word? Отображаемая строка, что изменится, если вы сделаете что-нибудь с форматированием страницы? Параграф? Что-то другое?

С помощью функций поиска и замены Word вы можете делать кучу вещей, включая изменение форматирования и другие неочевидные вещи, но все они будут действовать только на сам текст find-what, а не на любой окружающий текст.

Марта
источник
Хотя у Грепа есть это регулярное выражение любви!
Phoshi
1

Есть поддержка документов MS - Word, PowerPoint, Excel - в CRGREP, которую я разработал как бесплатный инструмент с открытым исходным кодом. Он также включает другие трудные для поиска вещи, такие как таблицы базы данных, изображения, аудио, архивы, PDF и их комбинации. Веселиться.

Craig
источник
0

PowerGREP сделает именно это для вас и быстро, но не бесплатно. Хотя, на мой взгляд, это стоит каждой копейки. Плюс, есть 30-дневная бесплатная пробная версия.

Снимок экрана поиска PowerGREP через файл Word

Тим Питцкер
источник
0

Недостаточно представителей, чтобы комментировать, но я вижу, что эта проблема с документами и документами обсуждалась, поэтому любой, кто преследует тему (как и я), может найти это полезным.

Вам не нужен специальный инструмент для файлов DOCX. docx - это сжатые файлы XML.

Чтобы извлечь и удалить XML, попробуйте что-нибудь на основе

unzip -p "*.docx" word/document.xml | sed -e 's/<[^>]\{1,\}>//g; s/[^[:print:]]\{1,\}//g'

из командной строки фу

Фафхрд
источник