Добавить текст в существующий PDF с помощью Python

108

Мне нужно добавить дополнительный текст в существующий PDF-файл с помощью Python, как лучше всего это сделать и какие дополнительные модули мне нужно будет установить.

Примечание: в идеале я хотел бы иметь возможность запускать это как в Windows, так и в Linux, но при нажатии подойдет только Linux.

Изменить: pyPDF и ReportLab выглядят хорошо, но ни один из них не позволит мне редактировать существующий PDF-файл, есть ли другие варианты?

Frozenskys
источник

Ответы:

89

Я знаю, что это старый пост, но я долго пытался найти решение. Я нашел достойный вариант, использующий только ReportLab и PyPDF, поэтому решил поделиться:

  1. прочтите ваш PDF-файл с помощью PdfFileReader(), мы назовем этот ввод
  2. создайте новый PDF-файл, содержащий ваш текст для добавления с помощью ReportLab, сохраните его как строковый объект
  3. прочитайте строковый объект, используя PdfFileReader(), мы назовем этот текст
  4. создайте новый объект PDF с помощью PdfFileWriter(), мы назовем этот вывод
  5. выполнить итерацию по вводу и применить .mergePage(*text*.getPage(0))для каждой страницы, на которую нужно добавить текст, а затем использовать output.addPage()для добавления измененных страниц в новый документ

Это хорошо работает для простых текстовых добавлений. См. Образец PyPDF для добавления водяных знаков на документ.

Вот код, чтобы ответить на вопрос ниже:

packet = StringIO.StringIO()
can = canvas.Canvas(packet, pagesize=letter)
<do something with canvas>
can.save()
packet.seek(0)
input = PdfFileReader(packet)

Отсюда вы можете объединить страницы входного файла с другим документом.

жить
источник
2
«создать новый PDF-файл, содержащий ваш текст, чтобы добавить его с помощью ReportLab, сохранить его как строковый объект» Как вы это делаете? Это экземпляр холста.
Лакшман Прасад
1
Я добавил пример кода выше, чтобы ответить на вопрос Лакшмана.
dwelch 01
Я рекомендую использовать PyPDF2, так как он более обновлен, также проверьте их пример кода: github.com/mstamy2/PyPDF2/blob/…
blaze
2
Этот код создаст новый файл PDF и пропустит все метаданные. Таким образом, он не добавляется к существующему PDF-файлу.
Антон Кукоба
127

Пример для [Python 2.7]:

from pyPdf import PdfFileWriter, PdfFileReader
import StringIO
from reportlab.pdfgen import canvas
from reportlab.lib.pagesizes import letter

packet = StringIO.StringIO()
# create a new PDF with Reportlab
can = canvas.Canvas(packet, pagesize=letter)
can.drawString(10, 100, "Hello world")
can.save()

#move to the beginning of the StringIO buffer
packet.seek(0)
new_pdf = PdfFileReader(packet)
# read your existing PDF
existing_pdf = PdfFileReader(file("original.pdf", "rb"))
output = PdfFileWriter()
# add the "watermark" (which is the new pdf) on the existing page
page = existing_pdf.getPage(0)
page.mergePage(new_pdf.getPage(0))
output.addPage(page)
# finally, write "output" to a real file
outputStream = file("destination.pdf", "wb")
output.write(outputStream)
outputStream.close()

Пример для Python 3.x:


from PyPDF2 import PdfFileWriter, PdfFileReader
import io
from reportlab.pdfgen import canvas
from reportlab.lib.pagesizes import letter

packet = io.BytesIO()
# create a new PDF with Reportlab
can = canvas.Canvas(packet, pagesize=letter)
can.drawString(10, 100, "Hello world")
can.save()

#move to the beginning of the StringIO buffer
packet.seek(0)
new_pdf = PdfFileReader(packet)
# read your existing PDF
existing_pdf = PdfFileReader(open("original.pdf", "rb"))
output = PdfFileWriter()
# add the "watermark" (which is the new pdf) on the existing page
page = existing_pdf.getPage(0)
page.mergePage(new_pdf.getPage(0))
output.addPage(page)
# finally, write "output" to a real file
outputStream = open("destination.pdf", "wb")
output.write(outputStream)
outputStream.close()
Дэвид Дехган
источник
13
Для python3 пакет должен быть io.BytesIOи использовать PyPDF2, а не pyPDF (который не поддерживается). Отличный ответ!
Нуфаль Ибрагим
4
Спасибо, что поделился. Отлично работает. Одно замечание: я считаю, что лучше использовать openвместо file.
митенка 05
Я считаю, что это более приемлемый ответ, тем более что он включает рабочий пример.
Кейси
1
Внимание: новый документ включает только первую страницу оригинала! Достаточно легко скопировать остальные страницы из existing_pdfв output, а пример кода - нет.
Alexis
@alexis: Как бы вы изменили код, чтобы поместить что-нибудь на вторую страницу PDF-файла? У меня есть форма, в которой используются две страницы, и я застрял на первой странице. Заранее спасибо.
DavidV
11

pdfrw позволит вам читать страницы из существующего PDF-файла и рисовать их на холсте reportlab (аналогично рисованию изображения). Примеры для этого есть в подкаталоге pdfrw examples / rl1 на github. Отказ от ответственности: я являюсь автором pdfrw.

Патрик Мопен
источник
Думаю, вы могли бы поместить туда ссылку
The6thSense
Хорошая точка зрения! Я не делал ТАК много вещей, когда размещал это, и беспокоился о «минимальном тексте плюс политика ссылок». (Моему представителю тогда было всего 46 лет, и IIRC я ​​только что получил -2 за один ответ, поэтому я немного беспокоился о новых ответах на вопросы 5-летней давности :)
Патрик Мопин
старые вопросы привлекают больше внимания :) и внимания
The6thSense
FWIW, есть еще несколько примеров reportlab / pdfrw, если вы начнете переходить по этой ссылке . Я ответил там, основываясь на ответе в мишени для обмана.
Патрик Мопен,
7

Используя Дэвид Дегхан «s ответ выше, следующие работы в Python 2.7.13:

from PyPDF2 import PdfFileWriter, PdfFileReader, PdfFileMerger

import StringIO

from reportlab.pdfgen import canvas
from reportlab.lib.pagesizes import letter

packet = StringIO.StringIO()
# create a new PDF with Reportlab
can = canvas.Canvas(packet, pagesize=letter)
can.drawString(290, 720, "Hello world")
can.save()

#move to the beginning of the StringIO buffer
packet.seek(0)
new_pdf = PdfFileReader(packet)
# read your existing PDF
existing_pdf = PdfFileReader("original.pdf")
output = PdfFileWriter()
# add the "watermark" (which is the new pdf) on the existing page
page = existing_pdf.getPage(0)
page.mergePage(new_pdf.getPage(0))
output.addPage(page)
# finally, write "output" to a real file
outputStream = open("destination.pdf", "wb")
output.write(outputStream)
outputStream.close()
Росс Смит II
источник
3

cpdf выполнит эту работу из командной строки. Но это не питон (афайк):

cpdf -add-text "Line of text" input.pdf -o output .pdf
user2243670
источник
0

Возможно, вам больше повезет, если вам удастся разобрать проблему на преобразование PDF в редактируемый формат, запись ваших изменений и последующее преобразование его обратно в PDF. Я не знаю библиотеки, которая позволяет вам напрямую редактировать PDF, но, например, существует множество конвертеров между DOC и PDF.

Aehlke
источник
1
Проблема в том, что у меня есть только исходный файл в формате PDF (от стороннего производителя), а PDF -> DOC -> PDF сильно потеряет при преобразовании. Также мне нужно, чтобы это работало в Linux, поэтому DOC может быть не лучшим выбором.
Frozenskys
Я считаю, что Adobe сохраняет возможность редактирования PDF-файлов в довольно закрытом и закрытом виде, чтобы они могли продавать лицензии на свои лучшие версии Acrobat. Возможно, вы сможете найти способ автоматизировать использование Acrobat Pro для его редактирования, используя какой-то макроинтерфейс.
aehlke
Если части, в которые вы хотите писать, являются полями формы, существуют интерфейсы XML для их редактирования - иначе я ничего не могу найти.
aehlke
Нет, я просто хотел добавить несколько строк текста на каждую страницу.
Frozenskys
0

Если вы используете Windows, это может сработать:

PDF Creator Pilot

Также есть технический документ о фреймворке для создания и редактирования PDF в Python. Он немного устарел, но может дать вам некоторую полезную информацию:

Использование Python в качестве фреймворка для редактирования и обработки PDF

Thedz
источник
Технический документ выглядит неплохо, но немного освещает код, а у меня действительно нет ресурсов, чтобы самостоятельно реализовать всю структуру PDF! ;)
Frozenskys
-4

Вы пробовали pyPdf ?

К сожалению, у него нет возможности изменять содержимое страницы.

Зоман
источник
Похоже, это может сработать, кто-нибудь этим пользовался? На что похоже использование памяти?
Frozenskys
У него есть возможность добавить текстовый водяной знак, и если он был правильно отформатирован, он может работать.
Frozenskys