Я был на месте моего деда в прошлые выходные. Моя бабушка вытащила эту гигантскую (~ 1400 страниц) книгу о своей семейной истории, восходящую к 1630 году или около того. Гигантский ботаник, которым я являюсь, я подумал, что было бы замечательно хранить всю информацию в базе данных и получать ее из Интернета. Я могу справиться со всем веб-программированием и регулярными выражениями, а что нет, но то, что я не знаю, является лучшим способом передачи текста из книги в компьютер.
Я знаю, что какой-то OCR будет необходим, из небольшого исследования, которое я сделал, кажется, что мои варианты:
- сфотографировать каждую страницу с помощью камеры, а затем обработать изображения с помощью программного обеспечения OCR
- используйте сканер для сканирования каждой страницы, затем обработайте с помощью программного обеспечения OCR
- используйте какое-то портативное устройство, подобное этому .
У кого-нибудь есть идеи о том, как лучше решить эту проблему? Я не хочу уничтожать книгу, потому что, насколько я знаю, ее нельзя заменить. Вероятно, это единственный раз, когда я собираюсь отсканировать большую книгу, поэтому я не думаю, что хочу потратить более 250 долларов на любое устройство. Я не возражаю против некоторых ручных усилий здесь (я понимаю, что это, скорее всего, займет месяцы), но я хотел бы найти наиболее эффективный из возможных методов.
Примечание о книге: ей всего около 20 лет, так что она в хорошей форме. Это монохромный, и страницы не начали желтеть. Так как он настолько большой, я беспокоюсь о возможных тенях, когда текст подходит близко к привязке.
Ответы:
Я сталкивался с этим на Lifehacker довольно давно, и с тех пор это был один из моих лучших проектов DIY.
Замените iPhone любой камерой или изображением, и вы получите набор хороших JPEG-изображений с высоким разрешением, готовых для распознавания текста с любым программным обеспечением, даже (срочно!) MS Office ...;)
Дешевые. Эффективное. DIY. Вы не можете победить такую идею.
РЕДАКТИРОВАТЬ: Комментарии подняли некоторые вопросы о тенях, скручивании страниц и т. Д. Довольно легко решаются для тех, кто буквально копировал текст библиотеки библиотеки.
Добавьте несколько источников света, чтобы осветить книгу, и устраните тени.
наклоните книгу на 90 градусов, чтобы страницы не скручивались в сторону переплетов в середине. Это также сохраняет привязку.
Я посмотрю, смогу ли я привести пример и настроить его сам.
РЕДАКТИРОВАТЬ 2: загруженный образец того, как вы должны держать книгу, а также обратите внимание на источник света слева.
источник
Из того, что я знаю, ABBYY делает лучшее программное обеспечение для распознавания текста, но оно не бесплатное. Вам следует попробовать использовать пробную версию ABBYY FineReader , возможно, она вам поможет.
источник
Вам нужно будет как-то захватить изображение. Существуют различные услуги, чтобы сделать это для вас. Вам также понадобится кто-то, кто знаком с содержанием текста, чтобы вычитать, поскольку OCR еще не идеален. Особенно с чем-нибудь рукописным.
Другие обсуждают ваш вопрос здесь: http://ask.metafilter.com/92506/scan-my-books
Некоторые компании сделают это для вас: http://www.scandexsystems.com/BookScanning2.html http://www.kirtas.com/index.php?option=com_content&view=article&id=13&Itemid=48 http: // www. ristech.ca/product.html
Некоторые бесплатные программы: http://download.cnet.com/Image-To-PDF-OCR-Converter-PDF-E-Book-Maker/3000-6675_4-10392924.html
источник
Для такого крупного и важного для вас и вашей семьи проекта, как этот, сканер книг для дома может быть подходящим вариантом, а некоторые моделируют даже спортивные страницы - http://www.diybookscanner.org/ Этот вариант изначально не поддерживает распознавание текста. , но снимает 600 страниц в час, и вы можете запустить его через OCR после факта http://hackaday.com/2011/07/18/diy-book-scanner-processes-600-pageshour/
источник
Вы можете посмотреть, есть ли в ближайшем к вам университете целый сканер книг, а затем попросить / подкупить студента, чтобы он пропустил вашу книгу.
источник
Я бы порекомендовал планшетный сканер для сканирования книг или целый книжный сканер, как упомянул Крис.
Если вы можете, скомпилируйте ваши изображения в формат TIFF, поскольку это является отраслевым стандартом, когда речь идет о системах управления документами.
Для работы с OCR я бы порекомендовал тессеракт OCR, поскольку он является основой, которую Google разработал для своего книжного проекта.
источник
хотя кажется заманчивым автоматизировать этот процесс, вы можете потратить больше времени и усилий, поскольку эта конкретная книга - дело личное. OCR выполнит большую часть, но вам придется корректировать страницу за страницей и сравнивать с оригиналом. имейте в виду, что ошибки автора являются частью сделки, не исправляйте их (создавайте сноски, если вы чувствуете в этом склонность). Не торопитесь, не подвергайте себя давлению, сканирование книг - это работа осла, но тщательность окупается, и в итоге вы получите прекрасную цифровую копию хроники вашей семьи. удачи в ваших усилиях :)
источник
На работе мы используем книжный сканер Plustek Optibook 3600, который стоит около 250 долларов .
Это в основном стандартный сканер с плоской кроватью, но со стеклянной пластиной, идущей прямо к краю сканера, так что страница книги может быть размещена плоско на пластине. Это устраняет тень позвоночника и позволяет избежать повреждения книг.
источник