У меня есть отсканированный PDF-материал, к которому я хочу добавить скрытый текстовый слой, чтобы я мог проиндексировать документ. Я использовал устройство вывода черного и белого tiff ghostscript (tiffg4) для извлечения страниц в виде изображений tiff, и вот пример того, как они выглядят:
Обработка этого изображения с помощью тессеракта не дает хороших результатов.
Изменение выходного разрешения ghostscript DPI (600, 300, 150, 96) показывает, что изображение с разрешением 96 DPI дает лучший результат от тессеракта, но все еще не является удовлетворительным.
Теперь я подумал спросить совета, какой фильтр улучшит это изображение для обработки распознавания.
Я мог бы использовать imagemagick, или numpy / scipy / ndimage
источник