• 技术文章 >Python技术 >Python爬虫

    python爬虫中网页文本的格式化

    小妮浅浅小妮浅浅2021-10-11 15:11:06原创195

    1、一个网页通常包含文本信息。对于不同的文本类型,我们可以选择合适的HTML语义元素进行标记。

    2、em元素用于标记和强调部分内容,small元素用于注释和署名文本。

    实例

    <body>
        <h1>论语学而篇第一</h1>
        <p><small>
        <b>作者:</b><abbr title="名丘,字仲尼">孔子<sup><a href="#">1</a></sup></abbr>(<time>前551年9月28日-前479年4月11日</time>)
        </small></p>
        <h2>本篇引语</h2>
        <p>《学而》是《论语》第一篇的篇名。《论语》中各篇一般都是以第一章的前二三个字作为该篇的篇名。《学而》一篇包括16章,内容涉及诸多方面。其中重点是
         <strong>「吾日三省吾身」;「节用而爱人,使民以时」;「礼之用,和为贵」以及仁、孝、信等</strong>道德范畴。</p>
        <h2>原文</h2>
        <p>子曰:「<mark>学而时习之,不亦说乎?</mark>有朋自远方来,不亦乐乎?人不知,而不愠,不亦君子乎?」 </p>
      </body>

    以上就是python爬虫中网页文本的格式化,希望对大家有所帮助。更多Python学习指路:python基础教程

    专题推荐:python爬虫
    品易云
    上一篇:Python爬虫中请求头的格式化 下一篇:没有了

    相关文章推荐

    • python爬虫urlencode()方法是什么• python爬虫quote()方法有什么用• python爬虫中aiohttp是什么• 百万数据python爬虫技巧• 如何解决Python爬虫中的代理ip异常和超时问题• python爬虫怎样添加IP池?• python爬虫更适合什么样的IP切换工具?• python爬虫怎么使用代理ip• Python爬虫架构的组成• python爬虫的分类方法• python爬虫获取数据的步骤• Python爬虫数据采集为什么一定要用代理技术?• Java和python爬虫的区别是什么?• python爬虫http代理怎么用?

    全部评论我要评论

    © 2021 Python学习网 苏ICP备2021003149号-1

  • 取消发布评论
  • 

    Python学习网