Извлечение текста OCR из Evernote

13

Evernote распознает изображения, которые вы сохраняете. Есть ли способ получить полнотекстовый эквивалент изображения в Evernote или OCR предназначен только для поиска?

Ли Риффель
источник

Ответы:

15

Evernote API имеет функции для получения текста и прямоугольника, где этот текст присутствует внутри изображения. См. Http://evernote.com/about/developer/api/evernote-api.htm , ознакомьтесь с «XML-форматом индекса распознавания Evernote» и функциями для его получения. Проблема в том, что они не выполняют традиционное распознавание текста ... их алгоритм распознавания может создавать разные слова для одного «слова» на изображении. Все, что они используют - это поиск, так что это хорошо для них, но не подходит для использования в качестве механизма распознавания. (Хотя они дают вам вес для каждого альтернативного слова, так что, возможно, вы можете использовать это)

Петр Штибраны
источник
11

Кроме того, Evernote, по-видимому, не решает, что конкретное изображение эквивалентно ровно одному слову - например, Evernote не определяет, что конкретное изображение является «ключом» и не «должным образом». Скорее, он будет отслеживать оба, и поиск любого из них вернет одно и то же изображение. Следовательно, нет никакого способа получить полнотекстовый эквивалент, потому что Evernote не решает, что на самом деле представляет собой полный текст, а только то, каким он может быть.

Майк Данхэм
источник
5

evernote платит приличную сумму создателю ocr-материала ИЛИ платит приличную сумму за совместную работу. таким образом, я действительно сомневаюсь, что они позволят вам получить извлеченный текст (+ позиционирование на изображении).

(может быть бизнес-модель, чтобы сканировать изображения других людей и обеспечить хороший OCR :))

Итак, ответ: нет.

Акира
источник
3
Это не правда Есть API для получения именно этой информации. Смотри мой ответ.
Питер Штибраны
2

Я не уверен, какая сложность вам нужна, но так как я также использую Adobe Acrobat, я просто щелкаю правой кнопкой мыши на своем вложении Evernote, чтобы открыть его с помощью Acrobat.

Затем в Acrobat я выбираю «Документ | Распознавание текста» и сохраняю документ в виде обычного текста.

Это хорошо работает для меня, так как мне нужно только случайное преобразование OCR.

Брюс Кессель
источник
1

Если бы вы могли получить все изображения из Evernote, вы можете сделать OCR с Google Docs.

Вы можете загрузить папку изображений в Документы Google и преобразовать их в Документы, которые будут содержать как изображение, так и текст OCRed.

Затем вы можете пакетно загрузить все эти документы в виде обычного текста, который вычеркнет изображение.

Если вы называете все изображения Evernote с помощью хэша (например md5), должно быть легко связать простые текстовые файлы, загруженные из Документов Google, с исходным изображением.

Макс Масник
источник
0

Я нахожусь на Windows и использую Adobe Acrobat Pro и Word, поэтому я делаю следующее:

  1. если файл не сохранен в формате JPG, щелкните значок «глазное яблоко» в верхнем левом углу изображения в Evernote, чтобы открыть его в Photo Viewer, и выберите «Файл»> «Сделать копию», чтобы сохранить его в формате JPG.
  2. перейдите к файлу изображения в проводнике
  3. щелкните его правой кнопкой мыши и выберите «Преобразовать в Adobe PDF» (файл откроется в Acrobat)
  4. нажмите «Файл»> «Сохранить как» и выберите «Расширенный текстовый формат» в раскрывающемся списке «Сохранить как тип», чтобы сохранить его в виде расширенного текстового файла (обработка файла занимает минуту)
  5. найдите файл RTF в Проводнике и дважды щелкните, чтобы открыть в Word
  6. редактировать при необходимости
Пит Николай
источник
Похоже, это совет о том, как извлечь текст из данного файла изображения, а не изображения в Evernote. Можете ли вы уточнить, как это отвечает на исходный вопрос, и делает ли это так, как предыдущий и принятый ответ (ы) не дают?
music2myear