• 技术文章 >Python技术 >Python爬虫

    python爬虫ip代理池怎么用

    小妮浅浅小妮浅浅2021-07-22 10:16:18原创66

    说明

    1、利用for循环爬取所有代理IP。查看网页源代码,发现所有的IP和端口都在第二和第三个td下,结合BeautifulSoup可以方便地抓取信息。

    2、检查IP的可用程度。IP是否可用,取决于连接代理后2秒内是否可以打开页面。如果可以,认为IP是可用的,添加到list中备用。

    实例

    import urllib2
    from bs4 import BeautifulSoup
    import csv
     
     
     
     
    def IPspider(numpage):
        csvfile = file('ips.csv', 'wb')  
        writer = csv.writer(csvfile)
        url='http://www.xicidaili.com/nn/'
        user_agent='IP'
        headers={'User-agent':user_agent}
        for num in xrange(1,numpage+1):
            ipurl=url+str(num)
            print 'Now downloading the '+str(num*100)+' ips'
            request=urllib2.Request(ipurl,headers=headers)
            content=urllib2.urlopen(request).read()
            bs=BeautifulSoup(content,'html.parser')
            res=bs.find_all('tr')
            for item in res:
                try:
                    temp=[]
                    tds=item.find_all('td')
                    temp.append(tds[1].text.encode('utf-8'))
                    temp.append(tds[2].text.encode('utf-8'))
                    writer.writerow(temp)
                except IndexError:
                        pass
                
    #假设爬取前十页所有的IP和端口
    IPspider(10)

    以上就是python爬虫ip代理池的使用,推荐大家使用品易http代理ip,千万ip资源百兆带宽,保证爬虫数据传输安全。提供高匿稳定代理ip服务,方便快捷获取网站数据,流量免费测试正在进行!更多Python学习指路:python爬虫

    专题推荐:python爬虫 ip代理池
    品易云
    上一篇:python爬虫从ip池获取随机IP 下一篇:python爬虫添加ip池

    相关文章推荐

    • 通过一个简单的爬虫来研究Python爬虫• 什么是Scrapy框架• 看kindle网站电子书用Python爬取下载• Python爬虫一天抓取百万张网页的小技巧• 使用Python爬虫代理增加网站流量

    全部评论我要评论

  • 取消发布评论
  • 

    Python学习网