Не удается скопировать текст из файла PDF

40

Я использую foxit PDF Reader для просмотра моего учебника. Я хотел бы скопировать текст из PDF-файла в текстовый документ, но он не позволит мне. Я могу выделить текст хорошо, но опция для копирования текста недоступна. Я могу скопировать текст из других документов, но не некоторые. Есть ли способ обойти эту защиту в окнах?

Jonno_FTW
источник
Я вижу, мой ответ не работает для вас, поэтому вы отправили награду. Если вы разместите где-нибудь пример такого pdf, я посмотрю на него.
harrymc
@harrymc: В частности, я пытался скопировать значения из таблицы 6.15 acousticslab.org/papers/VassilakisP2001Dis
Диссертация.pdf
@endolith: Смотрите мой новый ответ.
harrymc

Ответы:

29

Возможно, PDF-файл заблокирован от копирования текста. Ниже приведены два способа разблокировки:

  1. Если PDF-файл не был заблокирован для печати, вы можете распечатать его на виртуальном PDF-принтере, чтобы создать разблокированный файл. Смотрите это:
    «Удалить пароль и разблокировать защищенный PDF, который разрешается печатать, не зная секрета» .
  2. Если функция печати была заблокирована, см. Следующее:
    «Снять ограничения и расшифровать защищенные паролем PDF-файлы с помощью PDF Unlocker» .
harrymc
источник
Вы можете увидеть, заблокирован ли PDF для копирования. В меню «Файл» выберите «Свойства», а на вкладке «Безопасность» указано, разрешено ли копирование содержимого.
Роб Седжвик
Пробовал печатать PDF. Распечатанный файл не позволяет выделять текст, похоже, он преобразовал текст в изображение.
queezz
@queezz: PDF должен содержать изображения для начала.
Гаррим
@harrymc Да, есть изображения. Но текст также преобразуется в изображения. Опция Google Chrome хорошо работает на том же документе.
Queezz
Ваша первая ссылка ссылается на primopdf.com/installers/4.0.1/FreewarePrimo64Setup.exe, и это плохо, что не работает, и похоже, что вы даже никогда не архивировали его на archive.org. Ваша вторая ссылка в порядке, но она ссылается на сайт общего доступа к файлам dfiles.eu/files/7kiqyvswk, хотя файл в порядке, проверено с помощью virustotal. Но не так легко найти, так как на этой странице mydigitallife есть различные ссылки. Там говорится: «PDF Unlocker - это бесплатный, но удобный инструмент, который можно скачать по ссылке здесь (текущая версия 1.0.4)».
Бароп
25
  1. Откройте PDF-файл в Google Chrome (перетащите файл PDF в Chrome).
  2. Распечатайте определенную страницу в формате PDF или просто откройте предварительный просмотр.
  3. Теперь вы можете скопировать текст из предварительного просмотра или вывода PDF. Но я не думаю, что вы могли бы скопировать таблицу напрямую.
Khaleel
источник
1
docs.google.com/open?id=0B0U0hneaP_FcYWprOFpEbTVqdkk Посмотрите мой результат.
Халил
4
Это работает и для меня тоже. Это самый простой метод, который я вижу здесь.
эндолит
3
Абсолютно блестящий. Кстати, вы можете перетащить файлы на панель вкладок Chrome, чтобы быстро их открыть.
Ионо
Ни один из этих методов не работал для меня в Chrome 53. Возможно, лазейка была закрыта?
Саймон Ист
11

Мне удалось создать версию PDF-файла без DRM, используя Ghostscript (который доступен для Windows).

gs -q -dNOPAUSE -dBATCH -sDEVICE=pdfwrite -sOutputFile=stripped.pdf VassilakisP2001Dissertation.pdf

Полученный файл stripped.pdfможно загрузить в Adobe Reader, и Reader с радостью позволит вам скопировать любую его часть по вашему желанию. Это также сохраняет большую часть форматирования таблицы.

Майкл Хэмптон
источник
Это великолепно. Мой налоговый бухгалтер отказывается предоставить мне PDF-файлы без DRM и пароль для удаления DRM. Это решает мою проблему. Превосходная работа!
Кевинарпе
Если в PDF есть пароль, обязательно включите -sPDFPasswordпереключатель ( -sPDFPassword=password).
Palswim
2

Я смог успешно скопировать таблицу из вашего PDF-файла, используя Okular (для Linux; часть KDE). Чтобы сделать это, мне нужно было зайти в настройки Okular и снять флажок «Подчиняться ограничениям DRM».

Я знаю, что это не очень вам помогает, так как вы работаете с Windows, но это возможно, если у вас есть машина с Linux под рукой или вы хотите ее установить.

К сожалению, это был простой текст без форматирования, но похоже, что воссоздать таблицу не составит большого труда. Вы можете увидеть результаты моего копирования и вставки приключений здесь .

Майкл Хэмптон
источник
Вот для чего предназначен VirtualBox. : D Я также могу копировать простой текст без форматирования, но, выбирая один столбец за раз, его довольно легко экспортировать.
эндолит
Похоже, это лучше всего подходит для таблиц чисел, так как Okular позволяет делать прямоугольный выбор текста и извлекать один столбец по порядку.
эндолит
Для отдельных столбцов, вероятно, так. Для всей таблицы см. Мой другой ответ .
Майкл Хэмптон
Обратите внимание, что Okular может работать в Windows. На самом деле многие программы KDE могут работать на Windows .
Бакуриу
1

Вы можете использовать GT Text - программу, которая переводит изображения (также pdf snapshots = image) в текст. Вы можете выбрать область и скопировать ее в буфер обмена. Это бесплатно.

Официальная домашняя страница http://gttext.googlecode.com

Дэвид
источник
1

если копия неактивна, так как теперь это сомнение для вас, тогда PDF-файл «заблокирован», его можно прочитать, но он действительно мешает вам копировать / вставлять что-либо из него.

Этот сайт откроет PDF

https://smallpdf.com/unlock-pdf

barlop
источник
0

Если вы просто ищете короткие фрагменты, вы часто можете ввести несколько слов в Google внутри кавычек и найти точную цитату, уже отсканированную в другом формате или набранную кем-то другим.

Другой вариант - «Документ из фотографии» в приложении Google Docs для Android, в котором текст вводится через OCR. Это подвержено ошибкам, конечно.

Я бы хотел, чтобы функциональность блокировки PDF никогда не существовала. :(

эндолиты
источник
0

Ответ эндолиту:

Ваш PDF защищен от копирования, но не защищен от печати.

Поэтому я распечатал одну страницу, содержащую таблицу 6.15, в другой PDF-файл, который не защищен от копирования, выделил и скопировал таблицу, а затем вставил ее в Word. К моему большому удивлению, результатом пасты стал полный мусор.

Теперь я еще раз взглянул на эту таблицу и нашел очень удивительный результат: это не таблица!

Это на самом деле монтаж небольших фрагментов текста, расположенных на странице, чтобы выглядеть как таблица. Но это не настоящая таблица.

Лучшее, что вы можете сделать, это либо переписать все это в виде таблицы, либо просто использовать в своей работе скриншот этого табличного текста в собранном виде.

Вот мой скриншот таблицы, взятый из моего сгенерированного одностраничного PDF-документа :

образ

harrymc
источник
Я попытался напечатать это с 2 программами, но все, что я получил, было чистой страницей.
эндолит
Используя Foxit Reader , я расположился на странице, затем распечатал текущую страницу на PDF-принтере (я использовал Cute Pdf Writer ). Я попытаюсь проанализировать проблему с копированием таблицы этим вечером,
harrymc
Я попробовал PrimoPDF и qvPDF (который использует GhostScript)
эндолиты
Смотрите мое выше дополнение.
harrymc
... Я также загрузил свой одностраничный PDF сюда (время ожидания 60 секунд).
harrymc
0

Другая возможность - Evince .

В Windows , кажется, поддерживает копирование по умолчанию.

В Linux копирование можно включить, проверив override_restrictionsнастройку, если это еще не сделано, следуя этим указаниям ( dconf-editor/org/gnome/evinceoverride_restrictions).

эндолиты
источник