Практическое решение для оптического распознавания текста для преобразования большой книги в цифровой формат?

12

Я был на месте моего деда в прошлые выходные. Моя бабушка вытащила эту гигантскую (~ 1400 страниц) книгу о своей семейной истории, восходящую к 1630 году или около того. Гигантский ботаник, которым я являюсь, я подумал, что было бы замечательно хранить всю информацию в базе данных и получать ее из Интернета. Я могу справиться со всем веб-программированием и регулярными выражениями, а что нет, но то, что я не знаю, является лучшим способом передачи текста из книги в компьютер.

Я знаю, что какой-то OCR будет необходим, из небольшого исследования, которое я сделал, кажется, что мои варианты:

  1. сфотографировать каждую страницу с помощью камеры, а затем обработать изображения с помощью программного обеспечения OCR
  2. используйте сканер для сканирования каждой страницы, затем обработайте с помощью программного обеспечения OCR
  3. используйте какое-то портативное устройство, подобное этому .

У кого-нибудь есть идеи о том, как лучше решить эту проблему? Я не хочу уничтожать книгу, потому что, насколько я знаю, ее нельзя заменить. Вероятно, это единственный раз, когда я собираюсь отсканировать большую книгу, поэтому я не думаю, что хочу потратить более 250 долларов на любое устройство. Я не возражаю против некоторых ручных усилий здесь (я понимаю, что это, скорее всего, займет месяцы), но я хотел бы найти наиболее эффективный из возможных методов.

Примечание о книге: ей всего около 20 лет, так что она в хорошей форме. Это монохромный, и страницы не начали желтеть. Так как он настолько большой, я беспокоюсь о возможных тенях, когда текст подходит близко к привязке.


источник
1
Кстати, если книге всего 20 лет, а информация восходит к 1600-м годам, где находится исходный материал? Это может быть хорошо, чтобы захватить также!
Крейг,
Да, это было бы круто тоже. Я собираюсь посмотреть, смогу ли я отследить оригинального автора.

Ответы:

8

Я сталкивался с этим на Lifehacker довольно давно, и с тех пор это был один из моих лучших проектов DIY.

введите описание изображения здесь

Замените iPhone любой камерой или изображением, и вы получите набор хороших JPEG-изображений с высоким разрешением, готовых для распознавания текста с любым программным обеспечением, даже (срочно!) MS Office ...;)

Дешевые. Эффективное. DIY. Вы не можете победить такую ​​идею.

РЕДАКТИРОВАТЬ: Комментарии подняли некоторые вопросы о тенях, скручивании страниц и т. Д. Довольно легко решаются для тех, кто буквально копировал текст библиотеки библиотеки.

Добавьте несколько источников света, чтобы осветить книгу, и устраните тени.

наклоните книгу на 90 градусов, чтобы страницы не скручивались в сторону переплетов в середине. Это также сохраняет привязку.

Я посмотрю, смогу ли я привести пример и настроить его сам.

РЕДАКТИРОВАТЬ 2: загруженный образец того, как вы должны держать книгу, а также обратите внимание на источник света слева.

введите описание изображения здесь

Калибан
источник
Это так круто! Жаль , что я мог бы сделать это :)
AleX
Однако для этого вам нужна настоящая камера и хорошее качество, иначе вы получите изображение, которое не сможете использовать, особенно из очень старой книги. Так что это далеко не дешево.
Gnoupi
Очень интересно. Интересно, как это будет работать с книгой, учитывая тени, вероятно, между страницами.
Если страницы согнуты или имеют тени, у вас будут проблемы с тем, чтобы программное обеспечение OCR распознало буквы.
Алекс
добавить несколько источников света, чтобы осветить книгу, и устранить тени. наклоните книгу на 90 градусов, чтобы страницы не скручивались в сторону переплетов в середине. Это просто здравый смысл, мы делаем это все время в колледже, фотографируя библиотечные тексты.
калибан
3

Из того, что я знаю, ABBYY делает лучшее программное обеспечение для распознавания текста, но оно не бесплатное. Вам следует попробовать использовать пробную версию ABBYY FineReader , возможно, она вам поможет.

Алекс
источник
1

Вам нужно будет как-то захватить изображение. Существуют различные услуги, чтобы сделать это для вас. Вам также понадобится кто-то, кто знаком с содержанием текста, чтобы вычитать, поскольку OCR еще не идеален. Особенно с чем-нибудь рукописным.

Другие обсуждают ваш вопрос здесь: http://ask.metafilter.com/92506/scan-my-books

Некоторые компании сделают это для вас: http://www.scandexsystems.com/BookScanning2.html http://www.kirtas.com/index.php?option=com_content&view=article&id=13&Itemid=48 http: // www. ristech.ca/product.html

Некоторые бесплатные программы: http://download.cnet.com/Image-To-PDF-OCR-Converter-PDF-E-Book-Maker/3000-6675_4-10392924.html

NickSentowski
источник
1

Для такого крупного и важного для вас и вашей семьи проекта, как этот, сканер книг для дома может быть подходящим вариантом, а некоторые моделируют даже спортивные страницы - http://www.diybookscanner.org/ Этот вариант изначально не поддерживает распознавание текста. , но снимает 600 страниц в час, и вы можете запустить его через OCR после факта http://hackaday.com/2011/07/18/diy-book-scanner-processes-600-pageshour/

Xaq Fixx
источник
0

Вы можете посмотреть, есть ли в ближайшем к вам университете целый сканер книг, а затем попросить / подкупить студента, чтобы он пропустил вашу книгу.

Крис Нава
источник
0

Я бы порекомендовал планшетный сканер для сканирования книг или целый книжный сканер, как упомянул Крис.

Если вы можете, скомпилируйте ваши изображения в формат TIFF, поскольку это является отраслевым стандартом, когда речь идет о системах управления документами.

Для работы с OCR я бы порекомендовал тессеракт OCR, поскольку он является основой, которую Google разработал для своего книжного проекта.

Грег Бюлер
источник
0

хотя кажется заманчивым автоматизировать этот процесс, вы можете потратить больше времени и усилий, поскольку эта конкретная книга - дело личное. OCR выполнит большую часть, но вам придется корректировать страницу за страницей и сравнивать с оригиналом. имейте в виду, что ошибки автора являются частью сделки, не исправляйте их (создавайте сноски, если вы чувствуете в этом склонность). Не торопитесь, не подвергайте себя давлению, сканирование книг - это работа осла, но тщательность окупается, и в итоге вы получите прекрасную цифровую копию хроники вашей семьи. удачи в ваших усилиях :)


источник
на самом деле, это действительно хороший момент. Я не думал о том, чтобы сделать оригинальное содержание книги доступным в цифровом виде, но пока он у меня есть, я могу также сделать версию в формате PDF.
почему PDF? думаю, HTML. и вы можете также сохранить исходные сканы, хотя в итоге вы получите огромное количество данных.
Моя идея состояла в том, чтобы иметь всю информацию о рождении / происхождении в базе данных, чтобы я мог создать веб-интерфейс, который бы упростил навигацию / поиск / обновление. Я планирую работать над любыми опечатками из этой версии. Кроме того, у меня есть несколько двоюродных братьев, которых там нет, и было бы неплохо добавить их. Я думал о pdf, потому что было бы неплохо иметь что-то похожее на оригинальную книгу с оригинальными номерами страниц и такими неповрежденными. Эту версию я бы оставил в покое и сохранил все опечатки из книги.
0

На работе мы используем книжный сканер Plustek Optibook 3600, который стоит около 250 долларов .
Это в основном стандартный сканер с плоской кроватью, но со стеклянной пластиной, идущей прямо к краю сканера, так что страница книги может быть размещена плоско на пластине. Это устраняет тень позвоночника и позволяет избежать повреждения книг.

введите описание изображения здесь

pelms
источник
Вы когда-нибудь пробовали использовать это с действительно толстой книгой? Это как 3 дюйма толщиной.
Если вы можете открыть ее на 90 °, при этом страница должна быть достаточно плоской, все будет хорошо. Попробуйте на краю стола.
Селмс