Как я могу превратить фотографии бумажных документов в отсканированный документ?

44

Мой сканер сломался! У меня действительно хорошая камера, поэтому я сделал несколько фотографий документов, которые хочу отсканировать ... Однако они выглядят как фотографии бумаги, а не отсканированные документы:

  • Изображения не плоские
  • Освещение не равномерное (тени при искажении страницы и т. Д.)
  • Текст, очевидно, не обрабатывается в тексте PDF с возможностью копирования.

Они просто не подходят для профессионального использования, но они близки.

Я ищу какую-то вещь (или метод), которая может выполнить любое или все вышеперечисленное, чтобы я мог перейти от нескольких файлов JPG к одному [необязательно] аннотированному PDF всего документа, который находится в правильном формате (A4 как правило).

Любые предложения (кроме выхода и покупки нового сканера)?

Оли
источник
1
На Android приложение Google Drive может немного обработать и получить PDF-файл формата A4 из набора изображений (создание нового «сканирования») - применить черно-белое изображение и немного выпрямить (как в приложении, так и во время создание) на нем, и это выглядит в основном (низкое качество) сканирования. OCR - более сложная проблема.
Муру
Я не знаю ни о каком программном обеспечении Ubuntu, но я отказался от своего сканера, обнаружив, что на мобильном телефоне есть приложения, которые в основном делают то же самое. Возможно, вы захотите взглянуть на приложение Genius Scan (для Android) или Scannable (для iPhone). Затем подайте заявку, pdfjoinчтобы сшить их вместе. Нет OCR, хотя.
Джос
Причина, по которой я хочу сделать это с помощью фотографий, а не мобильного приложения, заключается в том, что моя цифровая зеркальная фотокамера [буквально] примерно в тысячу раз лучше, чем камера моего телефона. И если нет ничего, что делает это одним махом, я действительно думаю, что могу справиться с OCR самостоятельно. Есть много проектов с открытым исходным кодом, которые делают достаточно хорошую работу.
Оли
Возможно, я только что реанимировал свой сканер с липкой лентой, тостами и джемом, поэтому срочность отключена, но я думаю, что это все еще интересная проблема.
Оли
Оли , я погуглил некоторые примеры на Stackexchange, такие как tex.stackexchange.com/questions/94523/simulate-a-scanned-paper и этот stackoverflow.com/questions/8955425/… просто не уверен, правильно ли я понял ваш вопрос;)
JoKeR

Ответы:

46

Есть несколько способов сделать это. Хотя у всех моих способов есть одна проблема, они на самом деле не сгладят вашу картину. Более или менее хорошая картина все еще будет необходима.

Один из простых способов - попробовать программное обеспечение ScanTailor.

sudo apt-get install scantailor 

Вам понадобится 6 шагов для оптимизации ваших фотографий. На последнем шаге вы можете выбрать опцию «Выравнивание освещенности», это даст вам красивый чистый вид!


Лично я обычно просто использую GIMP . Но вам нужны некоторые базовые навыки, чтобы достичь своей цели.

sudo apt-get install gimp 
  1. обрезать картинку в нужном направлении
  2. используйте опцию Colors->, Curvesчтобы управлять выводом цвета так, как вы хотите ...

Отрегулируйте цветовые кривые, чтобы получить хороший чистый вывод.


Еще одна приятная небольшая программа - gscan2pdf , где вы также можете загружать фотографии и экспортировать их в PDF. Существует даже ссылка на GIMP, чтобы вы могли улучшить фотографию с помощью описанных выше шагов .

sudo apt-get install gscan2pdf 
Wittich
источник
1
Никогда не видел ScanTailor раньше. Кажется, что это почти идеально, за исключением того, что я не могу понять, как сохранить его как то, что я хочу сохранить (например, PDF). Любые идеи?
Оли
PS: добро пожаловать в Ask Ubuntu и Stack Exchange!
Оли
1
@Oli выходные данные сохраняются в папке, которую вы выбрали в начале. Как я вижу сейчас, это сохраняет это как размолвку. Итак, вы хотели бы запустить convert file.tiff file.pdfв консоли.
Wittich
2
Ах да, мой плохой. Я использую несколько страниц, поэтому я преобразую их в png, find -maxdepth 1 -name '*.tif' -exec convert {} {}.png \;а затем присоединяю их pdfjoin --outfile output.pdf --a4paper --rotateoversize false *.png. Просто подумать, когда я забуду, как все это сделать :) Еще раз спасибо.
Оли
2
ScanTailor был открытием !!! Обычно я делаю все это в Gimp или проприетарном приложении, таком как gimp, но у сканера есть только те функции, которые мне нужны для преобразования моих изображений в отсканированные изображения, удаляя весь шум :) Гораздо проще, чем все кривые, которые я использовал для двигаться в Gimp. Большое спасибо !!!
Константин
20

Чтобы сгенерировать печатную копию или PDF из фотографии документа с камеры, мы должны вручную довольно много конвертировать, чтобы получить изображение, аналогичное выводу со сканера. Большинство из этих преобразований могут быть сделаны с Gimp.

  1. Попробуйте сделать как можно лучше оригинальное исходное изображение:

    • Выберите яркий источник света, чтобы уменьшить шум пикселей, но чтобы избежать отражений, кровотечений или неравномерного рассеивания света, не используйте вспышку, если у вас нет студийного оборудования.
    • Если возможно, выберите источник света как минимум с двух сторон (сверху вниз или справа налево)
    • Сделайте снимок с большего расстояния, используя телеобъектив, а не широкоугольный объектив.
    • Используйте штатив, чтобы избежать сотрясения артефактов.
    • Направьте камеру, ортогональную к поверхности источника.
    • Включите некоторое пространство, граничащее с исходным источником.
  2. Подумайте об уменьшении насыщенности серого для лучшей контрастности и удаления цветных пиксельных артефактов.

    введите описание изображения здесь

  3. Отрегулируйте яркость и контрастность, чтобы сделать серый фон белым, а черные буквы - черными.

    • Это можно быстро сделать с помощью инструмента Gimp Colors> Levels , где мы можем перетащить черную точку (слева) и белую точку (справа) или выбрать черные / белые точки с помощью палитры цветов.

    введите описание изображения здесь

    • Нельзя удалять тени на изогнутых углах, не удаляя части текста (см. 6.)
  4. Удалить искажение подушки?

    В зависимости от качества наших фотообъективов и уровня масштабирования, который мы использовали, у нас могут быть некоторые артефакты, которые приводят к изгибу внешних границ документа. Существуют плагины, которые также удаляют эти артефакты, но мы можем быстрее выбрать уровень масштабирования нашей камеры там, где они минимальны. После обрезки (5.) мы можем даже не заметить их больше. Таким образом, удаление артефактов подушки может потребоваться только в том случае, если на нашем исходном изображении много прямых линий во внешних частях.

  5. Поверните и обрежьте или трансформируйте перспективу, если это необходимо.

    В отличие от сканера, наша камера может не получать источник параллельно границам изображения. Инструмент Gimp Rotate или Perspective даст нам визуальную обратную связь, чтобы иметь возможность поворачивать или корректировать перспективу изображения до тех пор, пока текстовые строки не будут параллельны странице.

    введите описание изображения здесь
    Перспективный инструмент на правой стороне

Теперь мы можем выбрать источник документа с помощью инструмента выбора прямоугольника, чтобы обрезать изображение внутри документа.

  1. Удалите нежелательные тени от изгибов, складок или виньетирования артефактов от объектива камеры.

    • Эти тени трудно удалить, и нет никакого плагина или автоматического фильтра, чтобы помочь нам.
    • Теоретически мы можем наложить градиентную заливку на эти регионы, но это может не привести к ожидаемым результатам, следовательно, может не стоить того времени, которое нам потребуется.
    • Поэтому самый быстрый способ - просто использовать инструмент ластик, чтобы удалить все эти уродливые тени за пределами текста (который мы должны сэкономить).

      введите описание изображения здесь стерты -> введите описание изображения здесь

  2. Масштаб изображения?

    В зависимости от разрешения камеры, масштабирование изображения до размера изображения сканера только увеличит размер файла, но не окажет никакого влияния на качество изображения. Уменьшение приведет к удалению деталей. Поэтому мы не должны масштабировать изображение, а настраивать размер печати из диалогового окна принтера (или ниже в 8.).

  3. Создать PDF

    Мы можем импортировать наше теперь красиво восстановленное вручную изображение в LibreOffice ( Вставить> Мультимедиа ) в

    • Определите его размеры
    • Экспорт в PDF
    • Печать (для меня печать из LibreOffice приводит к желаемому результату гораздо чаще, чем что-либо еще).
Takkat
источник
Большое спасибо за подробные шаги. Они помогли мне решить давнюю проблему преобразования фотографий в отсканированные документы. Я полностью впечатлен силой трансформации перспективы.
Четан С.
Отличный ответ! Инструмент перспективы был довольно запутанным для меня, так что вот отличное руководство. Я добавил 4 направляющих линии, затем обводил углы изображения вокруг, используя инструмент перспективы, пока изображение не стало квадратным со всеми 4 направляющими.
Габриэль Стейплс
(24 часа спустя). К сожалению! Я забыл ссылку. Вот руководство, о котором я говорил: lifewire.com/… .
Габриэль Стейплс
1

Если у вас уже есть изображение документа, просто загрузите приложение CamScanner на свой телефон / планшет. Это позволит вам импортировать изображение, затем сделает предлагаемую обрезку и позволит вам сгладить, а также настроить цвета / контрастность и т. Д. Это займет всего минуту.

Дэн
источник