Python 操作 PDF 文档：主流库选型指南

纪音悦 · 前天 09:38

PDF (Portable Document Format) 因其跨平台、格式固定的特性成为文档交换的标准。然而，由于其复杂的内部结构（文本流、图像、字体、矢量图形、注释、表单等都可能混合在一起），程序化操作 PDF 一直是个挑战。
Python 生态提供了丰富的库来解决不同场景下的 PDF 操作需求。根据核心功能分类，介绍最流行和最实用的库，包括免费和付费的商业级选项，并分析它们的优缺点……本文将帮助你根据具体任务做出明智选择。
核心原则：没有“万能钥匙”！选择哪个库取决于你想要做什么。主要就讲究一个门当户对和技术对口，不然就是事倍功半！
一、基础读取、写入、合并、拆分、旋转、加密/解密

这些是最常见的 PDF 基础操作。
1.PyPDF2 (及其继任者 pypdf)

定位: 老牌经典，功能全面，社区庞大，是处理基础任务的首选。
主要功能:

读取 PDF 元数据（作者、标题等）。
提取文本（但格式和位置信息可能不理想）。
合并多个 PDF 文件。
拆分 PDF（按页）。
旋转页面。
添加水印（通过覆盖页面）。
加密（设置密码）和解密 PDF。

优点: 纯 Python 实现，安装简单 (pip install pypdf2)，API 相对成熟，文档较全，适合入门和基础操作。
缺点:

文本提取能力较弱，对复杂布局和编码支持不佳。

它提取文本时，遇到复杂排版可能像初次面对迷宫——格式和位置信息？能给你就不错了，别要求太高！

编辑能力有限（难以修改现有内容结构，主要是页面级操作）。

原 PyPDF2 曾一度维护停滞事实上，原 PyPDF2 官方仓库已归档不再维护，但其继任者 pypdf（pip install pypdf）持续更新，故推荐使用pypdf替代旧版PyPDF2。
适用场景: 简单的 PDF 合并、拆分、旋转、加密、解密、基础元数据读取和文本提取。
简单示例 (合并 - pypdf):

from pypdf import PdfMerger
merger = PdfMerger()
merger.append("file1.pdf")
merger.append("file2.pdf")
merger.write("combined.pdf")
merger.close()

复制代码

2.PyMuPDF / fitz

定位: 高性能、功能强大的瑞士军刀。底层基于强大的 MuPDF 库 (C/C++)。
主要功能:

包含 PyPDF2/pypdf 的所有基础操作（且通常更快）。
精确而高性能的文本提取（支持获取文本位置、字体、颜色等丰富属性）。
强大的页面渲染（生成图片）与图像提取。
高级搜索（按矩形区域、按文本）。
注释（高亮、下划线、便签等）的添加、修改、删除。
处理表单 (AcroForms)。
处理文档结构（书签/目录）。

优点:

速度快，尤其处理大文件时优势明显。
功能丰富，几乎涵盖 PDF 操作的所有方面。
文本提取精度高，信息丰富。

缺点:

API 相对底层和复杂，学习曲线比 pypdf 陡峭。
安装稍复杂（依赖预编译的 MuPDF 二进制包，但 pip install pymupdf 通常能搞定）。
文档虽然全面，但可能需要更多时间去理解和查找。
使用 AGPL 许可证（商业应用需注意合规性）。

注意了！这个 AGPL 许可证要求：“如果你分发（包括 SaaS 形式）基于 AGPL 代码的软件，整个作品都必须以 AGPL 许可证发布”，也就是说如果你的项目包含使用了 AGPL 许可证的代码，那么你的一整个项目必须以 AGPL 许可证发布，并向用户提供源代码。你当然可以通过付费来获得商业授权，但是如果你的项目资金不充裕，其它的替代方案将是你最好的选择。
适用场景: 对性能要求高、需要精确文本提取（带位置信息）、处理注释和表单、将 PDF 页面转为图片、进行高级搜索等复杂操作。如果你需要“一个库解决大部分问题”且能接受学习成本，它是最有力的竞争者。
简单示例 (精确文本提取):

import fitz # PyMuPDF 的导入名是 fitz
doc = fitz.open("document.pdf")
page = doc[0]
text = page.get_text("dict") # 获取包含丰富信息的字典结构
blocks = text["blocks"]
for block in blocks:
if block["type"] == 0: # 文本块
for line in block["lines"]:
for span in line["spans"]:
print(
f"Text: '{span['text']}', Font: {span['font']},Size: {span['size']}, Position: {span['origin']}"
)
doc.close()

复制代码

3.Free Spire.PDF for Python

定位: Free Spire.PDF 是 E-iceblue 公司推出的商业级 PDF 处理库的免费版本。提供清晰规范的商业级 API 设计，是体验 Spire.PDF 核心功能与稳定性的理想起点。特别适合需要规范接口、企业级开发风格或特定高级功能的用户进行评估和轻量级应用。
主要功能:

文档安全性设置（密码、添加数字签名及带有时间戳的数字签名）
提取文本、附件和图片
合并、拆分、复制、裁剪 PDF 页面
添加骑缝章
更新元数据 (Metadata)
设置文档结构 (Section)
规范的绘图、插入图片、制作和加工表格 API
导入和导出 PDF 表单数据 (AcroForms)
设置查看器首选项

优点:

商业级库的免费版本，与收费版本共享统一、规范、稳定的 API，设计清晰，符合企业开发规范，降低学习与集成成本。
完善的文档与示例: 提供详尽的官方文档和丰富示例，学习曲线平缓，开发效率高。
支持 .NET 风格的面向对象设计，代码可读性和可维护性好。
无需复杂依赖，安装简单 (pip install Spire.PDF-Free)
兼容性与稳定性，Windows/Linux/macOS/国产系统等均能稳定运行，轻松部署至服务器环境.
特色功能支持，提供如骑缝章、数字签名(含时间戳) 等企业级文档处理功能。

免费版说明: 由于 Free Spire.PDF 是为了让用户零成本体验 Spire.PDF 的核心能力和 API 设计优势，故它适用于评估和轻量级自动化任务，而非大规模商业目的应用。它存在以下特性：

页数限制: 单次文档处理最多支持 10 页，格式转换最多转换 3 页。
功能聚焦: 文本提取满足基础需求；编辑模式侧重于添加新元素和页面级操作，深度修改现有复杂内容结构非其主要目标。

Free Spire.PDF 或许不是把万能钥匙，但它可以准确地打开对应着自己的那几把锁——它在文档自动化报表等领域表现相当优秀。
适用场景:

评估 Spire.PDF 商业级 API 设计与核心功能。
轻量级自动化任务。
需要快速实现 骑缝章、基础数字签名、标准化表单处理等企业文档特性。
重视 API 规范性、代码可维护性及跨平台稳定性的开发环境。
快速概念验证（PoC）和原型开发。
(免费版适用场景)了解商业级 PDF 库的设计理念。

对于更大规模、更复杂需求或无限制场景，Spire.PDF 商业版提供完整解决方案
简单示例：

from spire.pdf.common import *
from spire.pdf import *
# 创建PDF文档
pdf = PdfDocument()
# 添加页面
page = pdf.Pages.Add()
# 创建画刷和字体
brush = PdfSolidBrush(PdfRGBColor(Color.get_Black()))
font = PdfFont(PdfFontFamily.Helvetica, 12.0)
# 绘制文本
page.Canvas.DrawString("Hello from Free Spire.PDF!", font, brush, 50.0, 50.0)
# 保存文档
pdf.SaveToFile("output.pdf")
pdf.Close()

复制代码

二、精确文本提取（特别是复杂布局）

如果你主要关心的是从 PDF 中准确、结构化地提取文本内容，特别是那些包含表格、多栏布局的复杂 PDF：
1.pdfplumber

定位: 专注于精准文本提取和表格识别，提供直观的页面和对象模型。
主要功能:

以清晰的方式访问页面上的每个字符、文本行、矩形、曲线等底层元素。优秀的表格提取功能（基于线条和空白）。
获取文本的精确位置（x, y 坐标）、字体信息等。
可视化调试（绘制元素边界框）。

优点:

文本提取精度高，对理解 PDF 布局很友好。
表格提取能力是其核心亮点，效果通常优于其他通用库。
API 设计更符合“分析页面元素”的直觉。
基于 pdfminer.six（见下文）解析，但提供了更高级、易用的抽象。

缺点:

主要专注于分析（读取），写入/编辑能力很弱。
处理非常大的文件时速度可能不如 PyMuPDF。

相比于其他库，pdfminer.six更像是图书馆的管理员，而不是大作家。
适用场景: OCR 后处理、需要精确文本位置信息的抽取（如发票、报告解析）、表格数据提取。是做文本和表格分析的首选。
简单示例 (提取表格)：

import pdfplumber
with pdfplumber.open("document_with_tables.pdf") as pdf:
page = pdf.pages[0]
table = page.extract_table() # 提取页面上的第一个表格为二维列表
for row in table:
print(row)
# 或者获取所有表格
tables = page.extract_tables()

复制代码

2.pdfminer.six

定位: pdfminer 的积极维护分支。是 PDF 文本提取领域的底层引擎。
主要功能:

核心专注于文本提取。
提供对 PDF 内部结构的深度访问（解析器、资源管理器、设备接口等）。
支持将 PDF 转换为 HTML、XML 等其他文本格式。

优点:

文本提取能力强大，是许多其他库（如 pdfplumber）的基础。
社区维护活跃 (pdfminer.six)。

缺点:

API 非常底层和复杂，直接使用通常需要理解其 PDFParser, PDFDocument, PDFPageInterpreter 等等一堆组件的协作，学习成本很高，学习曲线陡峭。
本身不提供高级功能（如易用的表格提取、页面操作）。

适用场景: 需要深度控制解析过程、进行高级文本处理或作为其他库开发的基础。对于大多数终端用户，更推荐使用构建在它之上的 pdfplumber。
直接用它就像让你用镊子、电烙铁、螺丝刀去组装一台超算——功能强大，但过程可能让你怀疑人生。
三、表格数据提取（专项）

如果核心目标就是从 PDF 中高效准确地提取表格数据：
1.camelot

定位: 专门为从 PDF 中提取表格数据而设计的库。
主要功能:

识别 PDF 页面中的表格区域。
精确提取表格数据为 Pandas DataFrame 或 CSV/JSON/Excel 等格式。
支持基于线条（lattice）和基于空白（stream）两种解析模式，适应不同风格的表格。

优点:

专精于表格提取，效果通常很好。
输出直接是结构化数据（DataFrame），方便后续分析。
提供调整和修复表格解析的功能。

缺点:

仅专注于表格提取，不做其他 PDF 操作。
安装依赖 tk 和 ghostscript。
lattice 模式依赖于清晰的表格线，较慢但精确；stream 模式（依赖空白）较快但在布局紧凑或嵌套表格时容易出错。

两个模式都是偏科战神，建议让它们轮番上阵，比比效果再选择具体要用哪一个。
适用场景: 从 PDF 报告、论文、文件中抽取结构化表格数据。是表格提取任务的强力候选。
简单示例：

import camelot
# 提取第一页的所有表格
tables = camelot.read_pdf('document.pdf', pages='1')
print(tables[0].df) # 将第一个表格转为 Pandas DataFrame
# 导出所有表格为 CSV
tables.export('tables.csv', f='csv')

复制代码

2.tabula-py

定位: Python 对著名 Java 库 tabula-java 的封装。也是专门用于表格提取。
主要功能:

调用 tabula-java 引擎提取 PDF 中的表格。
输出为 Pandas DataFrame 或 JSON/CSV。

优点:

依赖成熟的 tabula-java，表格提取能力也很强。
简单易用。

缺点:

依赖 Java 运行时环境 (JRE)，环境配置麻烦。
本质上是一个包装器，性能和灵活性受限于底层的 Java 库。

适用场景: 需要利用 tabula-java 能力的表格提取。如果环境允许安装 Java，也是一个不错的选择。
配置 Java 环境如同请外援：虽然效果显著，但过程非常麻烦和繁琐，还容易出问题（尤其是在多处部署的时候）。
四、生成 PDF（报告、文档）

需要从头开始创建新的 PDF 文档（如生成报告、发票、动态文档）：
1.ReportLab(reportlab)

定位: Python 生态中生成 PDF 的事实标准。功能强大且成熟。
主要功能:

提供低级 API (canvas) 进行像素级精确绘图（点、线、形状、图像、文本）。
提供高级框架 (platypus - Paragraphs and Tables Using Stylesheets) 用于流式文档生成，自动处理分页、样式（段落、表格、列表、页眉页脚）。
支持嵌入多种字体、图像。
可创建简单的交互式表单。

优点:

强大和灵活，几乎能生成任何你能想到的 PDF 布局。
历史悠久，社区支持好，文档详尽（虽然有些部分略显陈旧）。
开源版功能已足够强大，另有商业版 ReportLab Plus 提供额外支持。

缺点:

学习曲线非常陡峭，尤其是 platypus 框架的布局逻辑需要时间掌握。

学它就像爬山——只有登顶陡峭的山峰，才能看见壮丽的风景

纯创建库，几乎没有读取或修改现有 PDF 的能力。

适用场景: 需要程序化生成高度定制化、复杂布局的 PDF 报告、文档、票据等。是专业 PDF 生成的首选。
简单示例 (使用 canvas画文字)：

from reportlab.pdfgen import canvas
c = canvas.Canvas("hello.pdf")
c.drawString(100, 750, "Hello, World!") # 位置 (x, y) 单位是点 (1/72 英寸)
c.save()

复制代码

2.fpdf2(PyFPDF 的现代版)

定位: 轻量级、简单易用的 PDF 生成库。灵感来源于 PHP 的 FPDF。
主要功能:

提供比 ReportLab 更简单、直接的 API 来生成包含文本、图像、简单表格、基本图形的 PDF。
支持 Unicode (UTF-8)。
支持插件扩展（如页眉页脚、表格）。

优点:

轻量，API 简洁直观，学习成本低，快速上手。
纯 Python 实现，安装简单 (pip install fpdf2)。
文档清晰。

缺点:

功能不如 ReportLab 强大和精细（例如高级布局控制、复杂表格样式）。
主要面向简单到中等复杂度的文档生成。

适用场景: 需要快速、简单地生成不太复杂的 PDF 文档（如简单的文本报告、带图片的文档、基础表格）。是追求简单性和快速开发的绝佳选择。
简单示例：

from fpdf import FPDF
pdf = FPDF()
pdf.add_page()
pdf.set_font("Arial", size=12)
pdf.cell(200, 10, txt="Hello, World!", ln=True, align='C')
pdf.output("simple_doc.pdf")

复制代码

五、 PDF 转换

需要将 PDF 转换为其他格式（如 Word, HTML, 图片）或 从其他格式生成 PDF：
1.pdf2docx

定位: 专门将 PDF 转换为 .docx文件 (Microsoft Word)。
主要功能:

尽力保留原始 PDF 的文本、格式、表格、图片和布局到 Word 文档中。

优点:

专注于 PDF->DOCX 转换，效果通常比通用库或在线工具更好。
API 相对简单。

缺点:

转换复杂 PDF 时仍可能丢失格式或布局。
仅做转换，不做其他操作。

适用场景: 需要将 PDF 内容导入 Word 进行进一步编辑。
简单示例：

from pdf2docx import Converter
cv = Converter('input.pdf')
cv.convert('output.docx')
cv.close()

复制代码

2.PyMuPDF(fitz)

再次上榜！它也能很好地将 PDF 页面转换为图片 (PNG, JPG 等)：

import fitz
doc = fitz.open("document.pdf")
page = doc[0]
pix = page.get_pixmap(matrix=fitz.Matrix(2, 2)) # 缩放因子 2x
pix.save("page0.png")
doc.close()

复制代码

3.pdfminer.six

可用于将 PDF 转换为 HTML 或 XML 等文本格式。

4.专用命令行工具 + subprocess

对于复杂的转换（如高质量 PDF->HTML），有时调用成熟的命令行工具如 pdftohtml (Poppler 工具集的一部分) 或 wkhtmltopdf (HTML->DF) 通过 Python 的 subprocess 模块来执行，可能是更可靠或更高质量的选择。

特别注意：转换格式就像把钝刀放上角磨机——是磨利了，但难免有损耗（格式丢失）。
六、商业解决方案

如果需要更稳定、功能更全面的 PDF 操作库（尤其是企业级应用），商业库通常是更好的选择。它们通常提供更完善的格式支持和更高的转换质量，并有专业技术支持。唯一的不足通常是价格，但在它们提供的价值面前总是十分值得。
Spire.PDF for Python 商业版

定位： Spire.PDF for Python 是 E-iceblue 提供的全功能商业级PDF解决方案，在免费版基础上解除限制并增强专业能力。
核心优势：

无页数限制：支持任意页数的PDF处理与转换
格式转换增强：
- PDF 转 Word/Excel/HTML 时保留复杂格式和布局
- 高质量 PDF 转图像（支持多种格式和 DPI 设置）
- 反向转换：Office 文档转 PDF（保留超链接、表格样式等）
高级编辑能力：
- 深度修改现有 PDF 内容（文本/图像替换）
- 动态表单生成与处理
- 数字签名与加密强化
企业级支持：
- 专业技术支持与版本维护
- 定期功能更新与安全补丁
- 商业使用授权保障

适用场景：

企业级文档自动化系统
需要处理大型PDF（100+页）的项目
对转换质量和格式保真度要求高的场景
需要专业技术支持的商业应用

2. ReportLab Plus

定位： ReportLab开源库的商业增强版，专注于PDF生成领域。
核心优势：

高级报表生成功能（动态图表、复杂表格）
专业技术支持和服务
增强的PDF/A标准支持
企业级部署工具

适用场景：

需要生成极其复杂的动态报表
已有ReportLab基础需专业支持
符合严格PDF/A归档标准的需求

实事求是的讲，商业级的库往往具有较大的前期投入，但相对应的功能也会更丰富，支持也会更有保障，而当你使用它们创造了价值，这点付出就会显得非常值得了。
总结与选型建议

主要方案对比：

你的主要需求	推荐库	关键考虑
基础操作 (合并/拆分/旋转/加密)	pypdf (原 PyPDF2 继任者)	简单易用，纯 Python
	PyMuPDF (fitz)	高性能，功能更全
	Free Spire.PDF for Python	商业级API，稳定规范，商业特色功能
精确文本提取 (带位置/布局信息)	pdfplumber	高精度，分析友好，基于 pdfminer.six
	PyMuPDF (fitz)	速度快，信息丰富
表格数据提取	camelot	专精表格，输出 DataFrame
	tabula-py (依赖 Java)	成熟 tabula-java 的包装
	pdfplumber	内置不错的表格提取功能
生成新 PDF (报告/文档)	ReportLab	功能强大专业，但学习曲线陡峭
	fpdf2	轻量简单，快速上手
	ReportLab Plus	ReportLab商业版，提供额外支持
处理注释/表单/书签/渲染图片	PyMuPDF (fitz)	功能全面
PDF -> Word (.docx)	pdf2docx	专注转换，效果较好
PDF -> 图片	PyMuPDF (fitz)	高质量，高性能
PDF -> HTML/XML	pdfminer.six, PyMuPDF, 或调用 pdftohtml
需要“一个库解决大部分问题”	PyMuPDF (fitz)	性能高，功能覆盖广，注意 AGPL 协议
	Spire.PDF for Python 商业版	企业级支持、无限制处理、合规授权

商业方案对比：

特性	Spire.PDF for Python	ReportLab Plus
核心定位	全功能PDF处理解决方案	高级PDF生成工具
核心优势	读取/编辑/生成/转换四位一体	行业领先的PDF生成能力
PDF处理能力	完整文档操作（合并/拆分/加密等）	仅限生成新文档
文本提取精度	高保真提取（保留格式和位置）	不提供文本提取功能
表格处理	动态表格生成+现有表格提取	高级表格生成（仅限新建）
格式转换	PDF↔Word/Excel/HTML/图像	不支持
数字签名/加密	完整支持（含时间戳证书）	基础支持
现有文档修改	深度内容编辑（文本/图像替换）	不支持
跨平台支持	Windows/Linux/macOS/国产系统	跨平台
学习曲线	中等（.NET风格API）	陡峭（复杂布局系统）
授权模式	永久授权、订阅	纯订阅制
性价比优势	单次投入解决全流程需求	需搭配其他库完成完整工作流

选型建议：

选择 Spire.PDF 当你需要：
选择 ReportLab Plus 当你需要：

端到端PDF解决方案（从处理到生成）
高性价比的永久授权模式
现有文档修改与格式转换需求

极端复杂的动态报告生成
已有ReportLab经验且只需生成功能
预算充足的纯PDF生成场景

技术提示：Spire.PDF的独特价值在于将文档处理、转换和生成整合在统一API下，减少多库集成复杂度。
重要提示

PDF 是“终点格式”:

PDF 本质上是为呈现设计的，不是为编辑设计的。程序化修改现有 PDF 的内容结构通常非常困难且容易出错。大部分库的“编辑”能力都局限于页面级操作（增删页、旋转）或添加覆盖层（水印、注释）。

扫描件/图像型 PDF:

上述库主要处理文本型 PDF。如果 PDF 是扫描生成的图片（没有内嵌文本层，也就是那种看起来像用手机拍了一本书的照片做成的 PDF），你需要先进行 OCR (光学字符识别)，例如使用 pytesseract (Google Tesseract 的封装) + Pillow/OpenCV 处理图像，或者使用专门的 OCR 服务或库（如 easyocr, paddleocr 和 Spire.OCR）。
OCR 后得到的文本，可以用 pdfplumber 或 PyMuPDF 分析其结构（如果 OCR 工具保留了位置信息）。

库的活跃度与授权:

Python 生态变化快，关注库的 GitHub 仓库、PyPI 页面或官方网站，看其最近更新时间、Issue 处理情况等，选择维护活跃的库。
注意授权协议：PyMuPDF 使用 AGPLv3 协议，商业应用需谨慎；Free Spire.PDF 是免费但功能受限的商业产品；其他库多为 MIT/BSD 等宽松协议。

再次强调！ AGPL 许可证要求：“如果你分发（包括 SaaS 形式）基于 AGPL 代码的软件，整个作品都必须以 AGPL 许可证发布”，也就是说如果你的项目包含使用了 AGPL 许可证的代码，那么你的一整个项目必须以 AGPL 许可证发布，并向用户提供源代码。

组合使用:

根据复杂需求，可能需要组合使用多个库。例如：用 pypdf 合并文件 -> 用 pdfplumber 提取关键文本和表格 -> 用 ReportLab 生成包含提取结果的新报告 PDF。

企业级需求解决方案

Free Spire.PDF 旨在让用户体验 Spire.PDF 的核心功能和 API 设计风格。对于评估和轻量级应用（单次处理 ≤ 10 页，格式转换 ≤ 3 页）完全足够。
如需处理更大文档或解锁全部高级功能，E-iceblue 提供功能完整、无页数限制、包含专业技术支持的 Spire.PDF for Python 商业版，具备以下企业级特性：
- 无限制处理：支持任意页数文档和复杂操作
- 优先技术支持：专业工程师团队提供及时技术支持
- 定期更新保障：持续的功能增强和安全更新
- 商业授权保障：避免AGPL等开源协议的法律风险
- 企业定制服务：提供API定制和专属功能开发

商业支持选择：

对于需要长期稳定运行的企业系统，商业库提供更可靠的技术支持和持续更新。Spire.PDF商业版以其全面的功能覆盖和合理的授权模式，特别适合需要处理多种PDF任务的中大型企业。

先试再定:

对于你的特定文档和任务，最好的方法是用候选库写个小脚本实际测试一下效果。不同库对同一份“复杂”PDF 的处理结果可能有显著差异。

开始探索

建议根据你的核心任务，从推荐库中选择 1-2 个，查阅它们的官方文档和示例代码开始动手实践：

pypdf
PyMuPDF (fitz)
Free Spire.PDF for Python
pdfplumber
camelot
ReportLab
fpdf2
pdfminer.six
Spire.PDF for Python 商业版
ReportLab Plus

== 希望这篇详尽的指南能帮助你在 Python 的 PDF 操作世界中找到得心应手的工具！祝你编码愉快！==

来源：程序园用户自行投稿发布，如果侵权，请联系站长删除
免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

账号		自动登录	找回密码
密码			立即注册