Как узнать количество слов в файле PDF? Я думаю, что большинство файлов PDF, для которых я хочу получить общее количество слов, имеют встроенный текстовый слой, поэтому мне не нужно распознавание текста.
Задача возникла в результате поиска некоторых научных работ известного размера, например, 15000 слов. Большинство работ модеров публикуются в формате PDF
pdf
word-count
osgx
источник
источник
pdftotext
: не забывайте е. И вы можете использовать одну команду:pdftotext myfile.pdf - | wc -w
.pdftotext
это часть Xpdf, которая также доступна для платформы Windows. Страница загрузки Xpdf находится здесь: foolabs.com/xpdf/download.html .wc
также можно найти, но в качестве альтернативы можно использовать практически любой текстовый процессор, такой как word или LibreOffice Writer. Они тоже считают слова. (Для LibreOffice Writer перейдите в меню Файл -> Свойства -> Статистика)Это сложная задача, которую нелегко решить. Если вы действительно хотите получить точный результат, скопируйте абзац для вашего средства просмотра PDF в текстовый файл и проверьте его с помощью
wc -w
инструмента. Причина, по которой не следует использоватьpdftotext
в этом случае, заключается в следующем: математические формулы также могут попасть в вывод и рассматриваться как «слова». (В качестве альтернативы вы можете редактировать вывод, который вы получаетеpdftotext
). Другой причиной, по которой это может не сработать, являются заголовки: «4.3.2 Foo Bar» считается тремя словами.Обходной путь - только считать слова, начинающиеся с символа из [A-Za-z]. Итак, что я обычно делаю, это двухэтапный подход:
получить список уникальных слов и проверить, не слишком ли много ложных срабатываний внутри:
pdftotext foo.pdf - | tr " " "\n" | sort | uniq | grep "^[A-Za-z]" > words
Я не использую здесь словарь, так как некоторые орфографические ошибки не считаются словами.
Получить этот список слов и grep его в выводе pdftotext:
pdftotext foo.pdf - | tr " " "\n" | grep -Ff words | wc -l
Я знаю, что это может быть сделано в пределах одной строки, но тогда я не мог легко увидеть результат фильтрации с первого шага.
-F
Может помочь вам , как заявлено на комментарий MOI ниже (спасибо).источник
grep -Ff words
, потому что grep жалуется на «Unmatched [или [^» ». Со страницы man: `` `-F, --fixed-strings Интерпретировать PATTERN как список фиксированных строк, разделенных символами новой строки, любой из которых должен соответствовать. (-F определяется POSIX.) `` `Я только что попробовал бесплатную программу, Abacus Переводчика . Вы можете перетаскивать файлы различных типов (в том числе PDF), и в нем появляется браузер с распечатанным отчетом о количестве слов для каждого документа. Это работало нормально для меня. (Он специально создан для подсчета слов и занимает всего 435 КБ ... то есть не "большое приложение"). Abacus переводчика не работает на PDF 1.5 или более поздней версии.
В качестве альтернативы : вы можете просто Ctrl+ Aвыделить весь текст в Acrobat Reader, а затем скопировать и вставить его в программу, подобную Microsoft Word (с количеством слов в строке состояния в нижней части экрана).
источник
Простой способ сделать это, если вы используете Acrobat Pro, это экспортировать PDF в документ Microsoft Word, а затем выполнить подсчет слов в Word. Кроме того, вы можете экспортировать его в простой текстовый файл и использовать утилиту подсчета слов в текстовом редакторе по вашему выбору /. Я только что посчитал слово в pdf-статье, используя метод Word, и все заняло все 30 секунд.
Надеюсь это поможет.
источник
Вы можете установить OCRFeeder . В нем выберите Файл-> Импорт PDF-> Автоматически обнаружить и распознать все страницы-> Экспорт в ODT, и документ писателя libreoffice будет готов для подсчета слов или любой другой функции RTF, которую вы захотите использовать.
источник
Я считаю удобным счетчик слов, включенный в инструменты абракадабры . Установка немного странная, хотя.
источник
Вы можете использовать консоль Adobe Acrobat JavaScript со следующим кодом, который я взял из ответа Дэйва Мерчанта на forums.adobe.com :
Протестировано с Adobe Acrobat Pro DC 2018.011.20040 на Windows 7 SP1 x64 Ultimate.
Чтобы включить консоль JavaScript:
Чтобы запустить окно консоли JavaScript:
CTRL + J
К вашему сведению, если у вас есть источник LaTeX, соответствующий PDF: Правильное количество слов документа LaTeX .
источник
Стандарт де-факто, который используют переводчики с 2000 года, - это инструмент подсчета слов AnyCount. Он рассчитывает количество слов в PDF и 37 других форматах.
источник
Ctrl+ Shift+ Fвведите расширенный поиск, введите слово, и оно будет подсчитывать, сколько раз оно находится в документе. Это не ракетостроение.
источник