поиск PDF-файлов с нестандартной кодировкой символов

19

Некоторые PDF-файлы создают мусор (« mojibake ») при копировании текста (даже если они отображаются нормально). Это делает невозможным их поиск (все, что вы ищете, не будет соответствовать мусору).

У кого-нибудь есть легкий обходной путь?

Примеры:

  1. Руководство по TEAC TV EU2816STF (дает вышеупомянутые проблемы в Adobe Reader как на Windows, так и на Mac, но отлично работает в Preview на Mac)
  2. Руководство по Leadtek Winfast PVR2 (FTP-ссылка; также есть проблемы с предварительным просмотром на Mac)
  3. Руководство к ТВ-тюнеру Swann (FTP-связь; также есть проблемы с предварительным просмотром на Mac)
  4. Лицензионное соглашение Phonedisc (от ныне не существующей DTMS )
  5. Ежеквартальный обзор фонда Macquarie IFP
  6. Буклет BAN-TACS для малого бизнеса (в архиве)
  7. Флаер Easterfest 2004 (также из архива)

Я использую Adobe Reader (последняя версия) для Windows - может быть, вам поможет альтернативный просмотрщик? Я ищу бесплатное решение для Windows. С открытым исходным кодом было бы еще лучше.

Редактировать: Документы для инструмента Multivalent Extract Text содержат хорошее резюме того, почему что-то может пойти не так, включая: (цитируемый документ, последний раз измененный январь 2006 г.)

  • Текст может не иметь отображения Unicode. Шрифты PDF Type 3 часто отсутствуют, а в TeX DVI есть символы, которые не имеют эквивалентов Unicode.
  • Кодировка Unicode может содержать ошибки. Open Office отображает некоторые символы в один и тот же Unicode, что приводит к падению букв удваивания и удвоению.

Я полагаю, что окончательным решением в этих случаях было бы распознавание каждого символа в шрифте, чтобы выяснить, что это за символ на самом деле. Обратите внимание, что это будет проще, чем распознавание документов с шумным сканированием, потому что доступна точная форма глифа (с бесконечным разрешением, поскольку это «векторное» изображение).

Хью Аллен
источник
Используя clipbrd.exe(см. Mydigitallife.info/2008/11/06/… ) вы можете увидеть, что находится в буфере обмена. Что это дает вам?
Арджан
@ Арджан ван Бентем: он дает мне точно такой же мусор, какой я получаю при вставке в Блокнот.
Хью Аллен
Какие-нибудь подробности о формате? Я использую Mac, но я предполагаю, что Windows сообщит вам, является ли что-то изображением или текстом, а затем для текста, возможно, также обнаружит что-то о кодировке?
Арьян
Например, руководство по телевизору: та же проблема в Adobe Reader 8.1.2 на Mac, но нет проблем с использованием предварительного просмотра Mac для копирования или поиска текста. Его свойства документа показывают «Шифрование: Пользовательский» для шрифтов (см. Img.skitch.com/20100318-827uckkb5i326eta291f3qig3u.png ). Другие документы в формате PDF показать такие вещи , как «Кодировка: Анси» или «Roman» и не имеют никаких проблем в Adobe Reader на Mac (как adobe.com/education/pdf/type_primer.pdf урожайности img.skitch.com/20100318-tbyjrny9bsg684eqhr7b3au7fb.png ).
Арьян
1
Кроме того, pdftextonline.com не может получить текст из Руководства для телевидения или документа Phonedisc (другие не пытались). Но отправка в Gmail , а затем просмотра , как HTML делает работу для ручного (так же , как изображение не имеет никаких проблем с этим документом) TV ...
Арьян

Ответы:

3

Foxit Reader , возможно?

Для чего это стоит, я только что проверил PDF вы связаны с с Safari 4.0.4 на Mac OS X 10.6.2 и пока есть некоторые Engrish , то PDF это делает безупречно без экранного «мусора». Возможно, у вас проблемы с Unicode (чаще встречаются в Windows, чем в Mac OS)?

Alex
источник
Мусора нет на экране - он находится в буфере обмена, когда я копирую какой-то текст. Что происходит с вами, когда вы пытаетесь?
Хью Аллен
@ Хью: Особенности color Это цветной телевизор с дистанционным управлением. 􏰃 Можно запрограммировать до 100 программ из диапазонов VHF, UHF или кабельных каналов. Can Он может настраивать кабельные каналы. 􏰃 Управление телевизором очень легко с помощью системы меню. 􏰃 Он имеет три разъема Euroconnector для внешних устройств (таких как компьютер, видео, видеоигры, аудиосистема и т. Д.)
Alex
@ Хью: Пули не копируют должным образом, но остальное есть. С каким разделом / страницей / абзацем конкретно у вас возникла проблема, и я попробую?
Алекс
Все это. Я использую Adobe Reader для Windows. Я только что обновился до последней версии, которая не помогла. +1 спасибо за информацию. Я полагаю, что в Adobe Reader есть ошибка, которой нет в OSX-эквиваленте.
Хью Аллен
4
Я попробовал Foxit Reader, и у него та же проблема. Его установщик также очень навязчив, он хочет установить панель инструментов, изменить свою домашнюю страницу и т. Д. :(
Хью Аллен,
3

Самый простой способ обойти это - открыть файл в последней версии Google Chrome со встроенным плагином для чтения PDF . Затем вы можете использовать функцию поиска Chrome для поиска текста, и копирование-вставка работает правильно.

acatalept
источник
2

Например, руководство по ТВ : та же проблема в Adobe Reader 8.1.2 на Mac, но нет проблем с использованием предварительного просмотра Mac для копирования или поиска текста. Кроме того, отправка его в учетную запись Gmail и затем выбор «Просмотр», а затем «Простой HTML» открывает текст. Но Adobe Reader это не нравится.

Его свойства документа показывают «Кодировка: Пользовательский» для шрифтов. Другой документ показывает такие вещи, как «Кодировка: Ansi» или «Роман», и не имеет проблем ни в Preview, ни в Adobe Reader на Mac:

введите описание изображения здесь

введите описание изображения здесь

Однако и примеры Leadtek, и Swann создают проблемы в Preview на Mac, а также в Gmail, и оба показывают «Encoding: Identity-H». Тест Phonedisc тоже не пройден , с «Encoding: Custom».

Запутанно и не согласовано, но на каком-то форуме Adobe я нашел следующее объяснение еще одного примера, показывающего «Кодировка: Пользовательский» (выделено мной):

После просмотра PDF-файла выясняется, что полезной информации о кодировке нет (ни в PDF-файле, ни во встроенных данных шрифта), чтобы определить значение символов / глифов, отображаемых на страницах документа.

Фактически все шрифты встроены, но таким образом, что вся информация о кодировке была удалена. Это типичный пример PDF, который синтаксически полностью соответствует спецификации PDF, но там, где важная информация о значении текста в нем была отброшена в процессе создания PDF. Насколько я могу судить, было бы очень трудно восстановить информацию о кодировке.

Это не объясняет, почему предварительный просмотр Mac (и, по- видимому, также Infix) может обрабатывать некоторые примеры, когда Adobe Reader дает сбой, даже с «Encoding: Custom». Может быть, у Preview нет проблем, когда точный шрифт присутствует на самом компьютере? Или, может быть, это просто угадывание кодировки, которая работает для некоторых, но не для всех документов?

Что бы это ни вызывало: если прохождение через Google Docs или Gmail не работает, то, возможно, самый простой (но далеко не простой) обходной путь - это действительно сохранить в формате TIFF, а затем выполнить OCR . Такие сервисы, как Evernote, могут делать это на лету (это делает OCR на изображениях; я сомневаюсь, что это сделает OCR на PDF).

Арьян
источник
-1

Загрузка файла 1 не удалась для меня, файл 2, который я мог открыть с помощью xpdf, быстрого и открытого программного обеспечения для просмотра PDF. Я думаю, что он не может обрабатывать формы, но для чистого текста и графики я предпочитаю его для быстрого запуска.

Пользователь неизвестен
источник
1
Речь шла не об «открытии» PDF-файлов или об «открытии с быстрым временем запуска». Вместо этого речь шла о невозможности скопировать и вставить текстовые фрагменты с отрендеренных страниц. Таким образом, ваш ответ, вероятно, хороший, но не подходит к этому вопросу.
Курт Пфайфл
-2

К сожалению, ничего не поделаешь. Документы PDF на самом деле не содержат букв, но содержат формы букв. Другими словами, вместо того, чтобы читать письмо и рисовать его на экране, Adobe Reader, как любое другое приложение для чтения PDF, просто рисовало векторную графику, закодированную в файле.

Тем не менее, некоторые программы для чтения PDF поставляются с программным обеспечением, которое позволяет анализировать форму и восстанавливать текст с помощью распознавания текста. Он работает так же, как если бы вы сканировали бумагу с напечатанным текстом и использовали программное обеспечение, такое как ABBYY FineReader, чтобы преобразовать его обратно в текст, но из-за бесконечно высокого качества векторных рисунков результаты обычно намного лучше, чем для отсканированных документов.

Некоторые документы могут быть защищены от преобразования в текст, обманывая Adobe Reader. Например, буквы могут быть нарисованы в нескольких перекрывающихся формах таким образом, что визуально они все равно будут выглядеть одинаково, в то время как программное обеспечение для распознавания текста не сможет распознавать текст. Ваш документ является примером такой защиты.

Один из способов - распечатать документ в виде изображения и позволить программному обеспечению распознавания текста распознать его Более высокое разрешение для изображения улучшит качество. Однако этот метод не очень удобен.

Сергей Белозоров
источник
2
Документы PDF на самом деле не содержат никаких писем - это не так для большинства не отсканированных документов; см. en.wikipedia.org/wiki/Portable_Document_Format#Text
Арджан,
Спасибо. Интересная информация. Я всегда думал, что в PDF нет информации о тексте. Тем не менее, похоже, что документ, предоставленный Александром, не имеет встроенного текста. Или также возможно, что используемый там шрифт имеет странную кодировку символов, то есть они не соответствуют типичной кодировке ASCII.
Сергей Белозоров
2
Как я мог скопировать текст из PDF, если бы это были только формы? Вы частично правы - он не растеризован в PDF (если он не из отсканированного источника), но текстовые данные включены. Тем не менее, шрифты (как правило) также встроены, что позволяет отображаемому вектору отображаться вектором.
Алекс