
说明
1、在scrapy中,start_url是由start_requests处理的,通过重写这种方法,start_url可以携带请求头信息。
2、cookie不能放在scrapy中的headers中,在构建请求时有专门的cookies参数。
可以接收字典形式的cookie。可能需要在settings中设置ROBOTS协议和USER_AGENT。
实例
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 | import scrapy
class Git1Spider(scrapy.Spider):
name = 'git1'
allowed_domains = [ 'github.com' ]
start_urls = [ 'https://github.com/GitLqr' ]
def start_requests(self):
"" "
重写start_requests,发送携带cookies的Request。
默认start_requests只是普通的get请求,不会携带自定义的头信息
" ""
url = self.start_urls[0]
temp = '_octo=GH1.1.1045146750.1615451260; _device_id=cd8d64981fcb3fd4ba7f587873e97804'
# 把cookies字符串转成字典
cookies = {data.split( '=' )[0]: data.split( '=' )[-1] for data in temp.split( '; ' )}
yield scrapy.Request(
url=url,
callback=self.parse,
cookies=cookies
)
def parse(self, response):
print(response.xpath( '/html/head/title/text()' ).extract_first())
|
以上就是python重写start_requests方法,希望对大家有所帮助。更多Python学习指路:python基础教程
本文教程操作环境:windows7系统、Python 3.9.1,DELL G3电脑。