Есть ли такая вещь, как механизм полнотекстового индексирования, который можно запрашивать из командной строки и в идеале вообще не требует использования графического интерфейса?
Я особенно заинтересован в индексировании моих электронных книг и статей, так что это смесь pdf, epub и нескольких djvu. (Открыто) Документы Office были бы хороши, но намного ниже в моем списке.
command-line
search
жюльен
источник
источник
Ответы:
Вы смотрели на Lucene или Sphinx? В то время как вам нужно будет сначала проанализировать документы, которые вы хотите проиндексировать, как только это будет сделано, любой из них можно искать из кли.
Для Lucene есть некоторая информация о том, как сделать это доступным .
Сфинкс, немного более расплывчатый, но есть также некоторая доступная документация . Вы можете передавать выбранные структурированные XML-данные в sphinx через источник данных xmlpipe2.
Lucene опирается на Java, а Sphinx построен на C ++ без каких-либо внешних зависимостей.
Либо кому-то понадобится немного работы, чтобы сделать то, что вы хотите, но, похоже, это вполне работоспособное решение.
источник
проверь xapian . Он имеет интерфейс командной строки и может индексировать множество форматов.
источник
Recoll может быть построен без графического интерфейса и будет искать ваши типы документов из командной строки.
Он использует Xapian под капотом.
источник
Трекер может быть вызван из командной строки, и gtk + не является жесткой зависимостью для проекта (но может быть для пакетов).
источник
Этот ответ рекомендует использовать поиск кода Google ,
Суперпользователи на Debian / производные могут попробовать:
sudo apt-get install codesearch
источник
В настоящее время существует два потока Tracker: стабильный (0,8) и нестабильный (0,9). Ваша ОС, скорее всего, имеет версию 0.8, поэтому, если вы можете себе это позволить (у нее есть некоторые передовые программные зависимости), скачайте последний tarfile (0.9.x). Он имеет множество улучшений по сравнению с 0,8, и в настоящее время он еще более стабилизирован , чтобы быть 0,10 (четные числа представляют стабильность). Если вы решите пойти по этому пути, используйте эту команду для настройки:
Скорее всего, у вас не будет установленных зависимостей, поэтому будет проще установить 0.8 из вашего дистрибутива и просто избегать битов GUI. В Debian Squeeze, Ubuntu 10.10 и Ubuntu 11.04 они хорошо разделены. Итак ( от имени root ) запустите:
Инструмент CLI для этого есть
tracker-search
, поэтому запустите его с--help
опцией, чтобы увидеть, как воспользоваться этим :-)примечания :
tracker-applet
иtracker-preferences
. Однако у них есть отдельный пакет дляtracker-search-tool
интерфейса поиска GUI.источник
Этим летом я работал над созданием инструмента полнотекстового поиска (новая версия) для индексации и поиска справочных страниц по NetBSD с использованием Sqlite3. Он состоит из двух инструментов командной строки:
Вы можете легко написать подобный инструмент для себя, для pdf вам понадобится библиотека для разбора pdf документов и аналогичная утилита для анализа документов открытого офиса.
Вы можете прочитать больше о проекте здесь
Код здесь
источник