Я получил отсканированный документ с изображением из банка и хочу преобразовать его в обычный текстовый документ с изображениями в Ubuntu.
Есть ли какой-нибудь инструмент для этого?
Я получил отсканированный документ с изображением из банка и хочу преобразовать его в обычный текстовый документ с изображениями в Ubuntu.
Есть ли какой-нибудь инструмент для этого?
Для linux существует несколько программ для распознавания текста, которые можно конвертировать из изображения в текст. Посмотрите на следующие варианты:
Все вышеперечисленное, кроме ocropus, присутствует в репозитории Ubuntu в пакете с таким же именем.
Различные читатели поддерживают разные форматы изображений, поэтому вы можете быть ограничены в своих настройках форматом файла, в котором находится ваш документ. В качестве альтернативы, вы можете использовать инструмент преобразования из ImageMagick, чтобы изменить формат, если вы хотите использовать определенный читатель OCR.
Адаптировано из моего ответа здесь .
Сначала вы должны установить «tesseract-ocr» на вашем Linux-компьютере.
sudo apt-get install tesseract-ocr
Вы можете сделать это вручную из CLI или я сделал PHP-код для того же, вы можете использовать его, если хотите.
Примечание. Для запуска этого кода необходимо включить команду exec в php.ini.
<?php
//IMAGE TO TXT Conversion
$input_file = $_REQUEST['input_file'];
$out = explode(".",$input_file);
$output_file = $out[0]."_".$out[1];
$output_file_name = $output_file.".txt";
echo "<br />----IMAGE To TXT conversion Started-----</br />";
echo exec('tesseract '.$input_file.' '.$output_file);
echo "<br />----TXT conversion Done-----</br />";
echo "<br /><b>Please Check----->".$output_file.".txt</b><br />";
echo "Click <a target='_blank' href='".$output_file_name."'>Here </a>to view it<br />";
?>
поместите этот код в корневую папку и получите доступ к нему из браузера,
например:
http://yourserver.com?input_file=1.png
Примечание: файл 1.png должен присутствовать в вашем текущем каталоге.
У меня нет прав на загрузку изображения, я использовал это изображение для справки, http://plone.org/documentation/kb-old/copy_of_ocr-in-plone-using-tesseract-ocr/phototest.gif/image_preview