Я пытаюсь скопировать и вставить текст из файла PDF.
Однако всякий раз, когда я вставляю оригинальный текст, это огромный беспорядок искаженных символов. Текст выглядит следующим образом (это всего лишь один небольшой фрагмент):
4$/)5=$13! ,4&1*%-! )5'$! 1$2$)&,$40! 65))! .*5)1! -#$! )/'8*/8$03!
(4/+$6&4;0!/'1!-&&)0!*0$1!.9!/,,)5%/-5&'!1$2$)&,$403!5'!+*%#!-#$!
0/+$!6/9! -#/-! &,$4/-5'8! 090-$+! 1$2$)&,$40! .*5)1!1$25%$! 1452$40!
/'1! &-#$4! 090-$+! 0&(-6/4$! %&+,&'$'-0! *0$1! .9! /,,)5%/-5&'!
1$2$)&,$40!-&1/97!"#$!+5M!&(!,4&1*%-!)5'$!/'1!,4&1*%-!1$2$)&,$40!
65))! .$!+*%#!+&4$! $2$')9! ./)/'%$13! #&6$2$43! -#/'! -#$!+5M! &(!
&,$4/-5'8!090-$+!/'1!/,,)5%/-5&'!1$2$)&,$40!-&1/97!
)*+*+, C<88,?>8513AG<5A14,
Я пробовал это и в Adobe, и в Foxit. Я сделал «Сохранить как текст» в Adobe Reader, и полученный текстовый файл - тот же искаженный текст.
Любые идеи, как я могу получить этот текст без искажений? (Кроме ручного набора текста ... есть много текста для извлечения.)
Ответы:
Самый простой способ обойти это - открыть файл в последней версии Google Chrome со встроенным плагином для чтения PDF . Затем вы можете использовать функцию поиска Chrome для поиска текста, и копирование-вставка работает правильно.
Я хотел бы проголосовать за комментарий Пипитаса к ответу Шики, но у меня нет кредитов :( Проблема может заключаться в нестандартном кодировании шрифта, а не в шифровании . В Acrobat выберите «Файл» -> «Свойства», а затем перейдите на вкладку «Шрифты», чтобы увидеть кодировку. и вкладка Безопасность, чтобы увидеть, зашифрован ли он.
источник
Я обнаружил эту проблему с PDF-файлами, которые я создал, и, по-моему, я нашел источник проблемы: с помощью Mac OS X Preview для уменьшения размера PDF-файла.
Я создал несколько кварцевых фильтров, используя утилиту Colorsync для сжатия изображений в PDF-файлах, чтобы уменьшить общий размер PDF-файлов с изображениями. Такие, как описано здесь: http://www.macosxhints.com/article.php?story=20031106133852693
Я обнаружил, что могу легко копировать и вставлять текст из исходного (несжатого) файла PDF, но после запуска этого PDF-файла с помощью созданного мной фильтра «Уменьшить размер файла» полученный сжатый PDF-файл не копирует и вставляет отчетливо (выглядит как строки вы разместили).
Однако при запуске этого же оригинального PDF-файла с помощью функции Adobe> Acrobat Pro «Документ»> «Уменьшить размер файла» полученный сжатый PDF-файл может успешно копировать и вставлять текст.
Таким образом, это не совсем полезно в вашем случае, если предположить, что ваш файл PDF был получен из другого места, и вы не сможете получить исходную версию, если она действительно была каким-то образом сжата. Но это может быть объяснением - что файл каким-то образом искажен, чтобы уменьшить размер файла.
Это может быть полезно для создателей контента, сталкивающихся с подобными проблемами при копировании и вставке текста из PDF-файлов - будьте осторожны, используя фильтры OS X Quartz, чтобы уменьшить ваши PDF-файлы!
--edit-- Я также заметил эту проблему при объединении PDF-файлов с предварительным просмотром. Два исходных PDF-файла можно копировать и вставлять в порядке, но при перетаскивании страницы из одного файла в другой файл, а затем сохранении объединенного PDF-файла текст в объединенном документе не может быть скопирован / вставлен. Это два документа, которые были сгенерированы одновременно с помощью Filemaker Pro 11 на Mac - я не могу представить, что у них будут разные кодировки или что-то подобное.
источник
Есть еще один очень простой способ сделать обходной путь :)
Просто распечатайте документ, используя CutePdf, принтер Adobe 2 Pdf или любой другой подобный материал. Суть в том, что вам нужно распечатать в формате PDF.
Во многих случаях это легко устранит проблему.
источник
Решение, которое сработало для меня:
Результаты не были идеальными, но они помогли мне пройти 80% пути и предоставили мне достаточно текста, чтобы мне не пришлось все переписывать!
источник
РЕШЕНО: (работал для меня на Windows 8, Acrobat XI, Office 2010)
Опция 1:
БИНГО!
Комментарии:
* Загрузка только в том случае, если у вас не установлен XPS.
Вариант 2:
Сделайте подобное, но сохраните как изображение (png, tiff, ...), тогда вам придется объединить все страницы обратно в один файл «PDF».
источник
Acrobat could not perform OCR on this page because: This page contains renderable text
Существует риск того, что информация не будет извлечена вообще. Документы PDF - это, по сути, один документ, перекрывающий другой, один простой текст, другой рисунок. Когда вы копируете и вставляете документ, вы помечаете текст, глядя на изображение, но то, что копируется в буфер обмена, - это соответствующий фрагмент текстовой части.
В зависимости от способа создания документа качество и доступность текстовой части могут сильно различаться. Если вы сохраните документ текстового процессора в формате PDF, используя Acrobat, Word, драйвер принтера PDF или любой другой метод, качество, как правило, будет превосходным, поскольку текстовый файл может быть создан из текста оригинала. Некоторые специальные символы могут искажаться, но обычный текст, как правило, хорошо.
Однако если документ создается из отсканированного изображения, текстовая часть, как правило, создается с помощью обработки изображения с помощью оптического распознавания символов, что может привести к довольно печальным результатам, особенно если оригинал не подходит для этой цели.
Плохая программа, используемая для создания PDF-файла, или неправильные настройки могут также привести к полному искажению текстовой части, так как, возможно, некоторые виды шифрования выполняются для файла после его создания.
Суть в том, что если текстовая часть документа действительно плохая, улучшить ее невозможно. Лучше всего было бы полностью удалить текстовую часть и заставить программу повторить процесс распознавания текста. Я думаю, что это может быть выполнимо из Acrobat, но я не совсем уверен.
источник
Одной из возможных причин этого может быть то, что для встраивания шрифта в PDF-файл использовалась пользовательская кодировка, которая неправильно применяется при копировании текста из PDF-файла.
Вы можете применять различные методы, чтобы уберечь себя от ручного ввода всего содержимого.
источник
Один из моих пользователей только что сообщил о той же проблеме (PDF был создан с помощью Distiller для Windows), что скопированный текст - только искаженный текст, и он не мог искать внутри документа. Я попробовал на своем Mac и не нашел никаких проблем. Оказалось, что я использовал приложение Apple Preview, а он использовал Adobe Reader на своем компьютере с Windows. Затем я попробовал Adobe Reader на моем Mac, но столкнулся с тем же эффектом. Для меня это выглядит так:
Adobe Reader выполняет копирование и поиск в сохраненном тексте.
Apple Preview будет копировать и искать после применения вектора кодировки.
Я не могу сказать это точно, но это объяснило бы мое наблюдение. И это действительно позволило бы выполнять все виды кодирования при сохранении комбинированных / уменьшенных файлов, как описано в другом посте здесь: с помощью Preview вы все равно можете снова получить текст.
Сначала я подумал, что было бы более логично закодировать встроенное подмножество шрифтов в виде смежных записей, вместо того чтобы оставлять дыры внутри и использовать исходное расположение символов. Но затем я понял, что, используя вектор кодирования для подмножества шрифтов с исходными записями, часто используемые символы могут иметь меньше битов, равных 1, в своем байте и могут быть сжаты лучше (это может снизить энтропию общий текст таким образом).
источник
Загрузка его в Google docs и использование опции « Просмотр»> «Простой HTML» дает возможность скопировать текст, корректный примерно до 80%, при этом пропускаются небольшие пробелы.
Эта ветка с принятым ответом на ту же проблему объясняет это рабочим примером.
источник
Я не пробовал использовать Google Docs, так как он все еще не поддерживается в моем офисе. Однако, распечатав файл в «ScanSoft PDF Create!» из «Acrobat 9» (печатает весь файл в изображение) и открытия распечатанного файла в «Nuance PDF Converter» (он подсказал мне, если я хочу сделать файл изображения доступным для поиска и редактирования, что я выбрал), я смог есть документ Word, который я могу легко скопировать и вставить. Это не идеально, хотя с точностью около 80-90%. Но, эй, у вас все еще есть оригинальный файл PDF для сравнения и коррекции тех частей, которые просто не могут быть исправлены. Экономит время от ввода всей вещи. Мой 2с.
источник
Я сделал несколько редактируемых текстовых PDF-файлов со старой версией Scansoft PDF Converter для Windows XP, а затем соединил страницы в программе предварительного просмотра Mac. Для каждой отдельной страницы я мог правильно искать, копировать и экспортировать текст из Adobe Reader на Mac. При объединении с помощью функции «Предварительный просмотр» и сохранении в виде одного файла все выглядело хорошо на экране, но только несколько отрывков были доступны для поиска / экспорта. Эта проблема привела меня сюда.
Сообщения здесь дали мне несколько хороших указателей (спасибо!). Я посмотрел на свойства файла для шрифтов. В одностраничных файлах из Win XP (где все хорошо) говорится, что кодировка была ANSI. Файл, объединенный в Preview (где скопированный текст искажен), показывал кодировку для большинства шрифтов как «Встроенный», а некоторые как «Римский».
Решение моей проблемы всегда было у меня под носом - сама программа Scansoft может объединять файлы. Когда я использовал комбинатор Scansoft и открыл файл на Mac, все шрифты были показаны в кодировке ANSI, а весь текст был отлично экспортирован / скопирован. Почему, черт возьми, я не совмещал их в PDF Converter, во-первых, я не знаю. Спасибо, афиши!
То же самое можно сказать и об открытии файлов в системе Linux.
Я знаю, что это не объясняет проблемы, связанные только с Windows - разве у PDF были похожие смешанные источники?
источник