• 技术文章 >Python技术 >Python爬虫

    爬虫如何使用ip代理池

    小妮浅浅小妮浅浅2021-07-21 10:50:07原创45

    1、利用IP代理池技术,每次从IP代理池中随机选择一个IP代理来爬取数据。

    import urllib.request
    import random
    #构建IP代理池
    ip_pool = [
        '58.221.55.58:808',
        '120.198.248.26:8088',
        '221.229.166.55:8080',
        '139.196.214.67:8080'
    ]
     
    def ip(ip_pool, url):
        #从IP代理池中随机选一个IP代理
        ip = random.choice(ip_pool)
        print(ip)
        #格式化IP代理格
        proxy = urllib.request.ProxyHandler({'http': ip})
        #装入IP代理
        opener = urllib.request.build_opener(proxy, urllib.request.HTTPHandler)
        return urllib.request.urlopen(url).read().decode('utf-8', 'ignore')
        
    data = ip(ip_pool, 'https://www.baidu.com/?tn=98010089_dg&ch=15')
    print(data)

    2、使用IP代理池和用户代理的组合来增加访问量,更安全。利用ip代理的动态ip构建自己的代理ip池,可以保证ip的质量,因为ip代理的ip资源是独立有效的。

    import urllib.request
    import random
    import urllib.error
    #自定义UA_IP类,用来随机得到
    def UA_IP(thisUrl):
        #构建用户代理池
        ua_pool = [
            'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.89 Safari/537.36',
            'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/13.0.782.41 Safari/535.1 QQBrowser/6.9.11079.201',
            'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.3; .NET4.0C; .NET4.0E)',
            'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0'
     
        ]
     
        #构建ip代理池
        ip_pool = [
            '139.196.196.74',
            '112.124.47.21',
            '61.129.70.109',
            '221.229.166.55'
        ]
     
        thisUA = random.choice(ua_pool) #从用户代理池中随机选择一个用户代理
        thisIP = random.choice(ip_pool) #从IP代理池中随机选择一个IP代理
        headers = ('User-Agent', thisUA)    #构造报头
        #将IP格式化
        proxy = urllib.request.ProxyHandler({'http': thisIP})
        #装入IP代理
        opener = urllib.request.build_opener(proxy, urllib.request.HTTPHandler)
        #装入代理
        opener.addheaders = [headers]
        #将opener设置为全局
        urllib.request.install_opener(opener)
        #从网页爬取信息
        data = urllib.request.urlopen(thisUrl).read().decode('utf-8', 'gnore')
        return data
     
    #网页池,后面从网页池中选择一个进行该网页信息的爬取
    urls = [
        'https://mp.csdn.net/mdeditor/88323361#',
        'https://mp.csdn.net/mdeditor/88144295#',
        'https://mp.csdn.net/mdeditor/88144295#',
        'https://mp.csdn.net/mdeditor/88081609#'
    ]
     
    #爬取1000次
    for i in range(0, 1000):
        try:
            thisUrl = random.choice(urls)
            data = UA_IP(thisUrl)
            print(len(data))
        except urllib.error.HTTPError as e:
            if hasattr(e, 'code'):
                print(e.code)
            if hasattr(e, 'reason'):
                print(e.reason)

    以上就是爬虫使用ip代理池的方法,推荐大家使用品易http代理ip,千万ip资源百兆带宽,保证爬虫数据传输安全。提供高匿稳定代理ip服务,方便快捷获取网站数据,流量免费测试正在进行!更多Python学习指路:python爬虫

    专题推荐:爬虫 ip代理池
    品易云
    上一篇:代理ip池对爬虫有什么好处 下一篇:python爬虫从ip池获取随机IP

    相关文章推荐

    • 爬虫时ip的合理使用• 爬虫受阻的原因分析• 浅析爬虫IP代理池为什么被封禁• 爬虫中独享代理ip的使用• python爬虫中常见的问题及解决• python爬虫中meta参数的使用• 爬虫中常见的采集数据方法• 网络爬虫怎么使用http代理api• 爬虫怎么防IP地址被封?• python爬虫如何减少ip的限制• 网络爬虫两种常见方式• 代理ip如何解决爬虫中的限制• 使用爬虫代理ip不足应该怎么办• 爬虫中ip的封锁及解决• 代理ip池对爬虫有什么好处

    全部评论我要评论

  • 取消发布评论
  • 

    Python学习网