为了证明Python确实在解析表格数据上优于其他的选择,今天我们为大家进行实例对比,具体如下:
PDF文件表格样例

Python解析结果

其他样式解析,如Tika
1、TEXT格式
1 | <p style= "line-height: 1.75em;" ><span style= "font-family: 微软雅黑, "Microsoft YaHei";" > Tika tika = new Tika();<br> tika.setMaxStringLength(100 * 1024 * 1024);<br> try (InputStream stream = new FileInputStream( new File( "600060_2018_zB.pdf" ))) {<br> return tika.parseToString(stream);<br> }<br></span></p>
|
Text格式解析结果

2、XHTML格式
1 | <p style= "line-height: 1.75em;" ><span style= "font-family: 微软雅黑, "Microsoft YaHei";" > ContentHandler handler = new ToXMLContentHandler();<br> AutoDetectParser parser = new AutoDetectParser();<br> Metadata metadata = new Metadata();<br> try (InputStream stream = new FileInputStream( new File( "600060_2018_zB.pdf" ))) {<br> parser.parse(stream, handler, metadata);<br> return handler.toString();<br> }<br></span></p>
|
XHTML格式解析结果

解析PDF常用组件(PdfBox、iText、Tika等)都无法将表格数据解析成有规则的格式。解析后格式基本是TEXT、XHTML等导致处理表格数据变的非常复杂。
根据对比我们可以发现,用Python解析PDF的表格数据更为简单方便,下期我们就为大家带来Python解析PDF具体的方法。更多Python学习推荐:PyThon学习网教学中心。