Используйте телефон Android и функцию « Объектив Google », недавно добавленную в приложение для фотографий и обзор фотографий с камеры.
OCR через Google Lens довольно удивительный и точный за пределами любого программного обеспечения OCR, которое я когда-либо использовал.
Ниже приведены некоторые скриншоты, описывающие процедуру с использованием дешевого (100 долларов США) телефона Nokia 3, лучшего телефона, которым я пользовался с тех пор, как мой любимый Nexus 4 отказался от призрака.
Я подробно опишу образец сканирования с помощью оптического распознавания текста греческой книги по этиологии, напечатанной в 1976 году, которую я не осмелюсь разорвать на части при сканировании, которая, похоже, имеет одинаковую плотность символов и шрифт.
Я сделал это оригинальное изображение в условиях, которые не были идеальными при освещении, с использованием всех автоматических настроек на так называемой телефонной камере, не использовались специальные методы фотосъемки или приборы для улучшения результата, можно сказать, что это просто любопытно сделанный снимок с телефона Страница книги . (Просто убедитесь, что текст сфокусирован, никакое оптическое распознавание не расшифрует размытый несфокусированный текст)
Нажмите на значок объектива Google, доступный через предварительный просмотр после фотосъемки, или на саму фотографию с помощью приложения Google photos.
Вот -Skynet- ^M^M^M^M^M^M
Я имею в виду, что Google Lens делает свое волшебное сканирование (точки немного жуткие, но им нужно было что-то сделать, чтобы вы знали, что искусственный интеллект Google делает свое дело, я полагаю)
После того, как изображение отсканировано, вы увидите, что текстовые области, которые Google Lens обнаружил на картинке, четко обведены, а их текст уже выделен в нижней половине экрана. если вам нужны только некоторые области, а не другие, просто коснитесь своего выбора, чтобы активировать / деактивировать их.
Если вы дотронетесь до извлеченного текста, он будет помещен в ваш буфер обмена для копирования / вставки в любом месте вашего телефона.
После этого просто вставьте текст в документ Google документов. Там вы можете: - исправлять любые ошибки прямо здесь или на вашем компьютере, - делиться документом с содержанием вашего сердца, - публиковать его в виде веб-страницы с живым обновлением ваших правок или - экспортировать в обычный текст, - документ Word , - открыть офисный документ, - разжечь совместимую электронную книгу epub с переформатированием текста, или - добрый добрый не-DRMd PDF
Можно утверждать, что это, вероятно, самый короткий путь к публикации с максимально широким выбором выходных данных.
Вы можете сделать все это с одного устройства (Android-телефон с установленными соответствующими приложениями) и сделать это с высокой скоростью, в основном бесплатно.
Вот гугл вставил фрагмент документа
Вот доля URL Google Docs, не стесняйтесь комментировать. Вы также можете попросить кого-нибудь помочь вам редактировать документ удаленно и одновременно.
https://docs.google.com/document/d/1aizUDOHerSraU3fIw6lHLabmLSNsQ7PMXOl1IHHE0RU/edit?usp=drivesdk
Наконец, вот сайт Сайтов Google, опубликованный с использованием вышеупомянутого документа в качестве связанного источника
https://sites.google.com/h-lo.me/ocrsample
Это https, для ПК и мобильных устройств, и в зависимости от вкуса, как правило, не болит глаз. Неплохо за 15 минут общей работы и никакого кодирования.
Осталось одно уточнение, а именно создание надлежащих абзацев в документе Google, поскольку линза Google вставляет жесткий возврат после каждой строки извлеченного текста, что делает каждую строку отдельным абзацем, и это станет проблемой, если вы захотите использовать Функции Документов Google, такие как оглавление , или когда вы экспортируете свой документ в электронную книгу, совместимую с электронной почтой, (испортит текст)
Вы можете просто присоединиться к каждой строке, где это уместно, нажав клавишу Backspace в начале каждой строки, или это можно автоматизировать с помощью скрипта.
Итак, я пишу дополнение к сценарию приложения, которое вскоре опубликую, чтобы автоматизировать этот процесс. Я дам вам знать, когда это будет сделано.
Вы можете сделать это поэтапно. Начните с размещения всего в Интернете, как сканирования страниц и обновления, как и когда вы можете. Скрепление пластиковой расчески cerlox ™ облегчает его разборку и повторную укладку.
Поскольку печать выглядит обычным шрифтом с засечками того же размера, отсканированные изображения можно оцифровать с помощью программного обеспечения оптического распознавания символов. OCR может предоставить вам черновой текстовый файл, который вы можете вычитать и опубликовать на веб-сайте для окончательной формы.
В то же время вы можете привести в порядок фотографии и другие графические материалы.
Вы можете сделать это, когда для проекта станет доступно время / ресурсы.
источник
Некоторые хорошие ответы здесь для того, чтобы приблизиться к этому непосредственно.
Я хотел бы добавить свой опыт оплаты кого-то еще, чтобы сделать это для вас.
Я использовал Digitize My Books в Великобритании (я сам в Великобритании).
Я был очень доволен результатами: каждая книга возвращается в формате PDF с текстом для поиска (и копирования). Используется стандартная техника PDF, при которой исходное изображение для каждой страницы сохраняется, но с наложением текста, так что вы можете выделить исходный текст на странице. Очень хорошая ценность. Как кто-то за границей из Великобритании, вы все равно можете отправить им книги.
Они также предлагают вариант для книги в редактируемом формате текстового документа, за дополнительную, но очень разумную стоимость.
Если вам не требуется возвращать оригинал, то самым дешевым вариантом будет выбор деструктивного сканирования. Здесь страницы берутся по отдельности из книги и сканируются. По умолчанию оригинальная книга не возвращается, хотя я полагаю, что вы можете запросить ее, возможно, за дополнительную плату (например, для обратной пересылки), но страницы будут потеряны, поскольку будут удалены для отдельного сканирования. Разрушающее сканирование - это вариант, который я выбрал для всех своих книг, и я не требовал возврата оригиналов.
Они также предлагают неразрушающее копирование, если вам требуется оригинал, но стоимость выше. Они также принимают ваши собственные цифровые сканы, если вы уже отсканировали книгу сами - они могут превратить это в документ PDF или Word с возможностью поиска, способный копировать.
Посмотрите вокруг их веб-сайта. Я действительно думаю, что это лучший вариант: тратить деньги, чтобы сэкономить время, а не тратить время, чтобы сэкономить деньги.
Я не работаю в Digitize My Books и не имею к ним никакого финансового интереса (акционер или нет).
Первоначально я начал «сканировать» в книгах сам, фотографируя с помощью зеркальной камеры (фотографирование быстрее, чем планшетное сканирование), при этом каждая страница открывалась с помощью буфера обмена и blu-tak. Но я нашел это довольно трудоемким.
Если вы все еще хотите сделать это самостоятельно, ScanTailor - это Windows-приложение с открытым исходным кодом, которое будет форматировать, разбивать двойные страницы / пары страниц при сканировании на отдельные страницы, выпрямлять и «разглаживать» их. Таким образом, получающиеся страницы выглядят плоскими и прямыми, как это требуется, однако это не делает OCR: результаты по-прежнему растровые изображения. Но, по крайней мере, это дает некоторый способ автоматизировать пакетную обработку любых искажений страниц, особенно неразрушающего копирования, когда трудно расположить страницы полностью плоскими для больших книг.
обновленный
Добавлена дополнительная информация о параметрах сканирования, предлагаемых сервисом. ScanTailor дополнительная информация. Грамматические исправления.
источник
Самый быстрый способ сделать это - связаться с вашим родственником и посмотреть, есть ли у него оригинальные файлы, которые они использовали для создания этой книги. На первой странице я бы сказал, что это сделано на компьютере. Преобразуйте {вставьте здесь действительно старый пакет текстового процессора} в текущий формат, и все готово.
Второй самый быстрый способ превратить стопку печатных материалов в цифровой документ:
Затем используйте любой пакет OCR, чтобы превратить отсканированные страницы в файл Word. Для этой цели я использую функции оптического распознавания текста в полной версии Adobe Acrobat, но вокруг есть много механизмов распознавания.
источник
Возможно, вы захотите попробовать очень недорогой сервис: preserve-your-memories.info. Делая это самостоятельно, я использую свой сканер для сканирования в OmniPage, программу OCR, а затем сохраняю в виде файла PDF, который полностью доступен для поиска. Поскольку ваша публикация связана с пластиковыми гребнями, ее легко разобрать, чтобы отсканировать отдельные страницы, а затем выполнить переплет. Съемка, как указано в приведенных выше предложениях, также очень работоспособна - хороший вариант среди многих подходов.
источник