pdfminer.six
PDFMiner的操作门槛比较高,需要部分了解PDF的文档结构模型,适合定制开发复杂的内容处理工具。
平时直接用PDFMiner比较少,这里只演示基本的文档内容操作:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 |
|
虽然pdfminer使用门槛较高,但遇到复杂情况,最后还得用它。目前开源模块中,它对PDF的支持应该是最全的了。
下面这个pdfplumber就是基于pdfminer.six开发的模块,降低了使用门槛。
pdfplumber
相比pdfminer.six,pdfplumber提供了更便捷的PDF内容抽取接口。
日常工作中常用的操作,比如:
提取PDF内容,保存到txt文件
提取PDF中的表格到Excel
提取PDF中的图片
提取PDF中的图表
提取PDF内容,保存到txt文件
1 2 3 4 5 6 7 8 9 10 11 |
|
提取PDF中的表格到Excel
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 |
|
上面用到了openpyxl的功能创建了一个Excel文件,之前有单独文章介绍它。
提取PDF中的图片
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 |
|
上面用到了PIL(Pillow)的功能处理图片。
提取PDF中的图表
图表与图像不同,指的是类似直方图、饼图之类的数据生成图。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 |
|
另外需要说明的是,PDF标准规范由Adobe公司主导。
平时我们不需要参考规范,但如果遇到一些较复杂的场景,尤其是模块没有直接支持,就只能硬着头皮翻阅文档了。文档是公开的,可以去搜索引擎搜索关键词:pdf_reference_1-7.pdf。
今天的分享到这里就结束了,希望能让大家对使用PDF有了更多的理解和运用。更多Python学习,就在PyThon学习网教学中心。