• 技术文章 >代理ip >http代理

    爬虫常见的抓取方式

    2021-09-15 17:35:58原创176

    image.png

    网路爬虫也叫网络蜘蛛,是一种计算机程序,它根据一定的逻辑和算法从因特网上抓取并下载因特网网页,是搜索引擎的重要组成部分。普通爬虫从一部分种子url开始,按照一定的策略爬取,爬取到的新url会被放入爬取队列中,然后重新进行一轮爬取,直到抓取完毕。

    待抓取URL队列是爬虫系统中一个重要组成部分。要解决的URL在URL队列中的顺序是什么,这包括首先抓取页面,然后再抓取哪一页,这也是一个重要问题。确定这些URL的排序方式,被称为获取策略。互联网爬虫的抓取策略很多,但无论方法如何,它的基本目标都是一致的:对重要网页进行优先搜索。

    1、宽度优先性遍历策略(BreathFirst)。

    在待爬取URL队列结尾处直接添加新下载网页中包含的链接,这是宽度优先性遍历的核心。这就是说,这个方法并不清楚地提出和使用网页重要性的度量方法,只是机械地提取新下载的网页的链接,然后附加到待爬取URL队列,作为对URL进行下载。

    2、OCIP策略(OnlinePageImporteComputation,在线页面重要性计算)。

    它可被视为一种改进的PageRank算法。开始执行该算法之前,每个网页都提供相同的“现金”(cash),无论何时下载一个网页P,P将自己所拥有的“现金”平均分配给页面中包含的链接页面,清空自己的现金。对待爬取URL队列中的网页,根据手头持有的现金数额排序,优先下载那些现金最充裕的网页。

    OCIP和PageRank从大框架上基本上是一致的,不同之处是:PageRank每次都需要迭代计算,OCIP策略不需要迭代过程,因此计算速度比PageRank快得多,适合实时计算使用。计算时,PageRank存在向无链接关系网页的远距离跳转过程,OCIP并不具备这个因素。试验表明,OCIP是一种良好的重要性度量策略,其效果略优于宽度优先遍历策略。

    3、大站优先性策略(LargerSitesFirst)。

    大站优先性策略的思想非常直接:以站点为单位衡量网页的重要性,对于要爬取URL队列中的网页,根据所属网站分类,如果哪个网站需要下载最多页面,则优先下载这些链接。它的基本思路是倾向于下载大型网站,因为大型网站通常包含更多的网页。考虑到大网站往往是知名企业的内容,其网页质量普遍较高,所以这种思路虽然简单,但有一定的依据。

    大家想尝试使用代理ip,可以进入品易http官网了解更多内容,提供高匿稳定代理ip,支持HTTP/HTTPS/SOCKS5代理协议,提供动态IP、静态IP等服务。百兆带宽,千万ip资源,保证爬虫数据传输安全性。快捷获取网站数据,现在还有免费测试,赠送ip的活动!

    了解更多详情见:http://http.py.cn/?utm-source=qie&utm-keyword=?0015。

    专题推荐:爬虫
    品易云
    上一篇:怎么挑选代理ip? 下一篇:怎样进行Python微博爬虫?

    相关文章推荐

    • 如何维护爬虫ip池• 爬虫IP代理的三种方式• python爬虫的分类方法• 住宅IP更适合爬虫用吗?• ​爬虫IP加速有哪些方法?• 使用代理ip爬虫采集遇到的问题

    全部评论我要评论

    © 2021 Python学习网 苏ICP备2021003149号-1

  • 取消发布评论
  • 

    Python学习网