Я ищу библиотеку PDF, которая позволит мне извлекать текст из документа PDF. Я посмотрел на PyPDF, и он может очень хорошо извлекать текст из документа PDF. Проблема в том, что если в документе есть таблицы, текст в таблицах извлекается вместе с остальным текстом документа. Это может быть проблематично, потому что в результате получаются бесполезные разделы текста, которые выглядят искаженными (например, множество цифр смешиваются вместе).
Я хочу извлечь текст из PDF-документа, исключая любые таблицы и специальное форматирование. Есть ли библиотека, которая это делает?
источник
Это сложная проблема для решения, поскольку визуально похожие PDF-файлы могут иметь совершенно разную структуру в зависимости от того, как они были созданы. В худшем случае библиотека должна будет действовать как OCR. С другой стороны, PDF-файл может содержать достаточную структуру и метаданные для легкого удаления таблиц и рисунков, которые можно адаптировать к библиотеке.
Я почти уверен, что не существует инструментов с открытым исходным кодом, которые решают вашу проблему для самых разных PDF-файлов, но я помню, что слышал о коммерческом программном обеспечении, которое заявляет, что делает именно то, что вы просите. Я уверен, что вы столкнетесь с ними при поиске в Google.
источник