Python：PyPDF2模块安装及使用

2022-02-10 10:07:24

PyPDF2的主要能力在页面级操作，比如：获取PDF文档基本信息、PDF分割及合并、PDF的旋转及排序、PDF加水印及去水印、PDF加密及解密等。

一、安装 PyPDF2

# pip install PyPDF2

二、常用类及方法

1、PdfFileMerger。

该类用来合并 pdf 文件。

常用方法：
addBookmark(title, pagenum, parent=None)：给 pdf 添加一个书签，title 是书签的标题，pagenum 是该书签指向的页面。
append(fileobj, bookmark=None, pages=None, import_bookmarks=True)：将指定的 fileobj 文件添加到文件的末尾，bookmark 是赎前，pages 可以使用 (start, stop[, step]) 或者一个 Page Range 来设定将 fileobj 中的指定范围的页面进行添加。
merge(position, fileobj, bookmark=None, pages=None, import_bookmarks=True)：与 append 方法类似，不过可以使用 position 参数指定添加的位置。
write(fileobj)：将数据写入到文件中。

2、PdfFileReader。

该类主要提供了对 pdf 文件的读操作，其构造方法为：

PdfFileReader(stream, strict=True, warndest=None, overwriteWarnings=True)

第一个参数可以传入一个文件流，或者一个文件路径。后面三个参数都是用来设置警告的处理方式，直接使用默认的即可。

得到实例之后，就可以对 pdf 进行一些操作了。主要的有以下几个操作：

decrypt(password)：如果 pdf 文件加密的话，可以使用该方法对其解密。
getDocumentInfo()：检索 pdf 文件的一些信息。其返回值为一个 DocumentInformation 类型，直接输出的话会得到类似下面的信息：
{'/Author':'Markus Richter', '/Creator': 'Microsoft® Word 2019', '/CreationDate':"D:20190819160317+08'00'", '/ModDate': "D:20190819160317+08'00'",'/Producer': 'Microsoft® Word 2019'}
getNumPages()：这个获取 pdf 文件中的页数。
getPage(pageNumber)：会得到 pdf 文件中对应的 pageNumber 页数的页面对象，返回值为 PageObject 实例。在得到 PageObject 实例之后就可以将其加添、插入等操作。
getPageNumber(page)：与上面的方法对立，可以传入 PageObject 实例，然后得到该实例是 pdf 文件中第几页的。
getOutlines(node=None, outlines=None)：检索文档中出现的文档大纲。
isEncrypted：记录该 pdf 是否加密。如果文件本身加密，即使在使用解密 decrypt 方法之后，还是会返回 true。
numPages：pdf 总共的页数，相当于访问 getNumPages() 的只读属性。

3、PdfFileWriter

该类支持对 pdf 文件进行写操作，通常是使用 PdfFileReader 读取一些 pdf 数据，然后使用该类进行一些操作。创建该类的实例时不需要参数。

其主要的方法有：

addAttachment(fname, fdata)：向 pdf 添加文件。
addBlankPage(width=None, height=None)：给 pdf 添加一个空白页到最后，如果没有指定大小就使用当前 Weiter 中 pdf 最后一页的大小。
addPage(page)：添加 page 到 pdf 中，通常这个 page 是由上面的 Reader 获取的。
appendPagesFromReader(reader, after_page_append=None)：将 reader 中的数据拷贝到当前的 Writer 实例中，并且如果指定 after_page_append 的话，最后还有回掉该函数并且将 writer 中的数据传入其中。
encrypt(user_pwd, owner_pwd=None, use_128bit=True)：将 pdf 进行加密，其中官方说 userpwd 是允许用户使用一些限制的权限打开 pdf 文件，也就是使用该密码的话可能会有一些限制，但是本人并没有在文档中找到设置权限的内容。而 ownerpwd 则是允许用户无限制的使用。第三个参数是是否使用 128 位加密。
getNumPages()：得到 pdf 页数。
getPage(pageNumber)：得到对应页数的 Page，是一个 PageObject 对象，可以使用上面的 addPage 方法将 page 进行添加。
insertPage(page, index=0)：将 page 添加到 pdf 中，index 指定的是被插入的位置。
write(stream)：将该 Writer 中的内容写入到文件中。

三、实例

from PyPDF2 import PdfFileReader, PdfFileMerger, PdfFileWriter

def get_reader(filename, password):
    try:
        old_file = open(filename, 'rb')
    except IOError as err:
        print('文件打开失败！' + str(err))
        return None

    # 创建读实例
    pdf_reader = PdfFileReader(old_file, strict=False)

    # 解密操作
    if pdf_reader.isEncrypted:
        if password is None:
            print('%s文件被加密，需要密码！' % filename)
            return None
        else:
            if pdf_reader.decrypt(password) != 1:
                print('%s密码不正确！' % filename)
                return None
    if old_file in locals():
        old_file.close()
    return pdf_reader

def encrypt_pdf(filename, new_password, old_password=None, encrypted_filename=None):
    """
    对filename所对应的文件进行加密,并生成一个新的文件
    :param filename: 文件对应的路径
    :param new_password: 对文件加密使用的密码
    :param old_password: 如果旧文件进行了加密，需要密码
    :param encrypted_filename: 加密之后的文件名，省却时使用filename_encrypted;
    :return:
    """
    # 创建一个Reader实例
    pdf_reader = get_reader(filename, old_password)

    if pdf_reader is None:
        return

    # 创建一个写操作的实例
    pdf_writer = PdfFileWriter()
    # 从之前Reader中将数据写入到Writer中
    pdf_writer.appendPagesFromReader(pdf_reader)

    # 重新使用新密码加密
    pdf_writer.encrypt(new_password)

    if encrypted_filename is None:
        # 使用旧文件名 + encrypted 作为新的文件名
        encrypted_filename = "".join(filename.split('.')[:-1]) + '_' + 'encrypted' + '.pdf'

    pdf_writer.write(open(encrypted_filename, 'wb'))

def decrypt_pdf(filename, password, decrypted_filename=None):
    """
    将加密的文件及逆行解密，并生成一个无需密码pdf文件
    :param filename: 原先加密的pdf文件
    :param password: 对应的密码
    :param decrypted_filename: 解密之后的文件名
    :return:
    """

    # 生成一个Reader和Writer
    pdf_reader = get_reader(filename, password)
    if pdf_reader is None:
        return
    if not pdf_reader.isEncrypted:
        print('文件没有被加密，无需操作！')
        return
    pdf_writer = PdfFileWriter()

    pdf_writer.appendPagesFromReader(pdf_reader)

    if decrypted_filename is None:
        decrypted_filename = "".join(filename.split('.')[:-1]) + '_' + 'decrypted' + '.pdf'

    # 写入新文件
    pdf_writer.write(open(decrypted_filename, 'wb'))

def split_by_pages(filename, pages, password=None):
    """
    将文件按照页数进行平均分割
    :param filename: 所要分割的文件名
    :param pages: 分割之后每个文件对应的页数
    :param password: 如果文件加密，需要进行解密操作
    :return:
    """
    # 得到Reader
    pdf_reader = get_reader(filename, password)
    if pdf_reader is None:
        return
    # 得到总的页数
    pages_nums = pdf_reader.numPages

    if pages <= 1:
        print('每份文件必须大于1页！')
        return

    # 得到切分之后每个pdf文件的页数
    pdf_num = pages_nums // pages + 1 if pages_nums % pages else int(pages_nums / pages)

    print('pdf文件被分为%d份，每份有%d页！' % (pdf_num, pages))

    # 依次生成pdf文件
    for cur_pdf_num in range(1, pdf_num + 1):
        # 创建一个新的写实例
        pdf_writer = PdfFileWriter()
        # 生成对应的文件名称
        split_pdf_name = "".join(filename)[:-1] + '_' + str(cur_pdf_num) + '.pdf'
        # 计算出当前开始的位置
        start = pages * (cur_pdf_num - 1)
        # 计算出结束的位置，如果是最后一份就直接返回最后的页数，否则用每份页数*已经分好的文件数
        end = pages * cur_pdf_num if cur_pdf_num != pdf_num else pages_nums
        # print(str(start) + ',' + str(end))
        # 依次读取对应的页数
        for i in range(start, end):
            pdf_writer.addPage(pdf_reader.getPage(i))
        # 写入文件
        pdf_writer.write(open(split_pdf_name, 'wb'))

def split_by_num(filename, nums, password=None):
    """
    将pdf文件分为nums份
    :param filename: 文件名
    :param nums: 要分成的份数
    :param password: 如果需要解密，输入密码
    :return:
    """
    pdf_reader = get_reader(filename, password)
    if not pdf_reader:
        return

    if nums < 2:
        print('份数不能小于2！')
        return

    # 得到pdf的总页数
    pages = pdf_reader.numPages

    if pages < nums:
        print('份数不应该大于pdf总页数！')
        return

    # 计算每份应该有多少页
    each_pdf = pages // nums

    print('pdf共有%d页，分为%d份，每份有%d页！' % (pages, nums, each_pdf))

    for num in range(1, nums + 1):
        pdf_writer = PdfFileWriter()
        # 生成对应的文件名称
        split_pdf_name = "".join(filename)[:-1] + '_' + str(num) + '.pdf'
        # 计算出当前开始的位置
        start = each_pdf * (num - 1)
        # 计算出结束的位置，如果是最后一份就直接返回最后的页数，否则用每份页数*已经分好的文件数
        end = each_pdf * num if num != nums else pages
        print(str(start) + ',' + str(end))
        for i in range(start, end):
            pdf_writer.addPage(pdf_reader.getPage(i))
        pdf_writer.write(open(split_pdf_name, 'wb'))

def merger_pdf(filenames, merged_name, passwords=None):
    """
    传进来一个文件列表，将其依次融合起来
    :param filenames: 文件列表
    :param passwords: 对应的密码列表
    :return:
    """
    # 计算共有多少文件
    filenums = len(filenames)
    # 注意需要使用False 参数
    pdf_merger = PdfFileMerger(False)

    for i in range(filenums):
        # 得到密码
        if passwords is None:
            password = None
        else:
            password = passwords[i]
        pdf_reader = get_reader(filenames[i], password)
        if not pdf_reader:
            return
        # append默认添加到最后
        pdf_merger.append(pdf_reader)

    pdf_merger.write(open(merged_name, 'wb'))

def insert_pdf(pdf1, pdf2, insert_num, merged_name, password1=None, password2=None):
    """
    将pdf2全部文件插入到pdf1中第insert_num页
    :param pdf1: pdf1文件名称
    :param pdf2: pdf2文件名称
    :param insert_num: 插入的页数
    :param merged_name: 融合后的文件名称
    :param password1: pdf1对应的密码
    :param password2: pdf2对应的密码
    :return:
    """
    pdf1_reader = get_reader(pdf1, password1)
    pdf2_reader = get_reader(pdf2, password2)

    # 如果有一个打不开就返回
    if not pdf1_reader or not pdf2_reader:
        return
    # 得到pdf1的总页数
    pdf1_pages = pdf1_reader.numPages
    if insert_num < 0 or insert_num > pdf1_pages:
        print('插入位置异常，想要插入的页数为：%d，pdf1文件共有：%d页！' % (insert_num, pdf1_pages))
        return
    # 注意需要使用False参数，可能会出现中文乱码的情况
    m_pdf = PdfFileMerger(False)
    m_pdf.append(pdf1)
    m_pdf.merge(insert_num, pdf2)
    m_pdf.write(open(merged_name, 'wb'))

if __name__ == '__main__':
     encrypt_pdf('ex1.pdf', 'leafage')
    decrypt_pdf('ex1123_encrypted.pdf', 'leafage')
    split_by_pages('ex1.pdf', 5)
    split_by_num('ex2.pdf', 3)
    merger_pdf(['ex1.pdf', 'ex2.pdf'], 'merger.pdf')
    insert_pdf('ex1.pdf', 'ex2.pdf', 10, 'pdf12.pdf')