• 技术文章 >Python技术 >Python基础教程

    解析表格数据,Python与Tika对比

    2020-10-28 17:15:47原创3118
    为了证明Python确实在解析表格数据上优于其他的选择,今天我们为大家进行实例对比,具体如下:


    PDF文件表格样例



    Python解析结果



    其他样式解析,如Tika


    1、TEXT格式


    1

    <p style="line-height: 1.75em;"><span style="font-family: 微软雅黑, "Microsoft YaHei";">  Tika tika = new Tika();<br>        tika.setMaxStringLength(100 * 1024 * 1024);<br>        try (InputStream stream = new FileInputStream(new File("600060_2018_zB.pdf"))) {<br>            return tika.parseToString(stream);<br>        }<br></span></p>


    Text格式解析结果


    2、XHTML格式


    1

    <p style="line-height: 1.75em;"><span style="font-family: 微软雅黑, "Microsoft YaHei";">       ContentHandler handler = new ToXMLContentHandler();<br>        AutoDetectParser parser = new AutoDetectParser();<br>        Metadata metadata = new Metadata();<br>        try (InputStream stream = new FileInputStream(new File("600060_2018_zB.pdf"))) {<br>            parser.parse(stream, handler, metadata);<br>            return handler.toString();<br>        }<br></span></p>


    XHTML格式解析结果


    解析PDF常用组件(PdfBox、iText、Tika等)都无法将表格数据解析成有规则的格式。解析后格式基本是TEXT、XHTML等导致处理表格数据变的非常复杂。


    根据对比我们可以发现,用Python解析PDF的表格数据更为简单方便,下期我们就为大家带来Python解析PDF具体的方法。更多Python学习推荐:PyThon学习网教学中心

    专题推荐:python与tika对比解析表格
    上一篇:Python如何读取pdf中的图片 下一篇:Python教程:pdfplumber提取pdf中的表格数据

    相关文章推荐

    • 进阶PDF,就用Python(pdfminer.six和pdfplumber模块)

    全部评论我要评论

    © 2021 Python学习网 苏ICP备2021003149号-1

  • 取消发布评论
  • 

    Python学习网