• 技术文章 >Python技术 >Python爬虫

    Python爬虫架构的组成

    小妮浅浅小妮浅浅2021-09-01 11:13:23原创133

    Python爬虫架构主要由调度器、URL管理器、网页下载器、网页解析器和应用程序五部分组成。

    1、调度器。

    相当于电脑的CPU,主要负责调度URL管理器、下载器和解析器之间的协调。

    2、URL管理器,包括待爬取的URL地址和已爬取的URL地址。

    防止重复抓取URL和循环抓取URL。实现URL管理器主要有三种方式,即内存、数据库和缓存数据库。

    3、网页下载器。

    通过传输URL地址下载网页,将网页转换成字符串。网页下载器包括urlib2(Python官方基础模块),包括登录、代理、cookie、requests(第三方包)

    4、网页解析器。

    解析一个网页字符串。

    可以根据我们的要求提取有用的信息,也可以根据DOM树的解析方法进行。网页解析器有正则表达式(直观,将网页转换成字符串,通过模糊匹配提取有价值的信息,当文档复杂时,这种方法提取数据会非常困难)、html.parser(Python自带)、beautifulsoup(第三方插件,可以用Python自带的html.parser解析,也可以用lxml解析,比其他类型强)、lxml(第三方插件,可以解析xml和HTML)、html.parser、beautifulsoup和lxml都是DOM树解析的。

    5、应用程序。

    是由从网页中提取的有用数据组成的应用。

    以上就是Python爬虫架构的组成,希望对大家有所帮助。更多Python学习指路:python爬虫

    专题推荐:python爬虫架构
    品易云
    上一篇:python3爬虫-5.BeautifulSoup 下一篇:python爬虫的分类方法

    相关文章推荐

    • python爬虫如何设置每个代理ip• python爬虫中URLError是什么• python爬虫之HTTPError如何理解• python爬虫urlparse方法如何使用• python爬虫之urlunparse()方法怎么用• python爬虫urlsplit()方法如何使用• python爬虫urljoin()生成链接• python爬虫urlencode()方法是什么• python爬虫quote()方法有什么用• python爬虫中aiohttp是什么• 百万数据python爬虫技巧• 如何解决Python爬虫中的代理ip异常和超时问题• python爬虫怎样添加IP池?• python爬虫更适合什么样的IP切换工具?• python爬虫怎么使用代理ip

    全部评论我要评论

    © 2021 Python学习网 苏ICP备2021003149号-1

  • 取消发布评论
  • 

    Python学习网