• 技术文章 >Python技术 >Python爬虫

    Cookielib库和HTTPCookieProcess处理器是什么

    爱喝马黛茶的安东尼爱喝马黛茶的安东尼2019-07-01 13:32:37原创3728
    Cookielib库和HTTPCookieProcess处理器

    Cookie :是指某些网站服务器为了辨别用户身份和进行Session跟踪,而储存在用户浏览器上的文本文件,Cookie可以保持登录信息到用户下次与服务器的会话。

    cookielib模块:主要作用是提供用于存储cookie的对象

    HTTPCookieProcessor处理器:主要作用是处理这些cookie对象,并构建handler对象。

    cookie库

    该模块主要的对象有CookieJar、FileCookieJar、MozillaCookieJar、LWPCookieJar。

    CookieJar:管理HTTP cookie值、存储HTTP请求生成的cookie、向传出的HTTP请求添加cookie的对象。整个cookie都存储在内存中,对CookieJar实例进行垃圾回收后cookie也将丢失。

    FileCookieJar (filename,delayload=None,policy=None):从CookieJar派生而来,用来创建FileCookieJar实例,检索cookie信息并将cookie存储到文件中。filename是存储cookie的文件名。delayload为True时支持延迟访问访问文件,即只有在需要时才读取文件或在文件中存储数据。

    MozillaCookieJar (filename,delayload=None,policy=None):从FileCookieJar派生而来,创建与Mozilla浏览器 cookies.txt兼容的FileCookieJar实例。

    LWPCookieJar (filename,delayload=None,policy=None):从FileCookieJar派生而来,创建与libwww-perl标准的 Set-Cookie3 文件格式兼容的FileCookieJar实例。

    其实大多数情况下,我们只用CookieJar(),如果需要和本地文件交互,就用 MozillaCookjar() 或 LWPCookieJar()。

    下面通过实例登录人人网,学习cookieJar()用法

    # _*_ coding:utf-8 _*_
    import urllib2
    import urllib
    import cookielib
    #通过CookieJar()类构建一个cookieJar对象,用来保存cookie的值
    cookie = cookielib.CookieJar()
    #通过HTTPCookieProcessor()处理器类构建一个处理器对象,用来处理cookie
    #参数就是构建的CookieJar()对象
    cookie_handler = urllib2.HTTPCookieProcessor(cookie)
    #构建一个自定义的opener
    opener = urllib2.build_opener(cookie_handler)
    # 通过自定义opener的addheaders的参数,可以添加HTTP报头参数
    opener.addheaders = [('User-Agent', 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36')]
    #renren网的登录接口
    url = 'http://www.renren.com/PLogin.do'
    #需要登录的账号密码
    data = {'email':'15********','password':'py********'}
    # 通过urlencode()编码转换
    data = urllib.urlencode(data)
    # 第一次是POST请求,发送登录需要的参数,获取cookie
    request = urllib2.Request(url,data = data)
    response = opener.open(request)
    print response.read()

    相关推荐:《Python视频教程

    有了cookie之后,可以直接爬取其它页面。

    # _*_ coding:utf-8 _*_
    import urllib2
    import urllib
    import cookielib
    #通过CookieJar()类构建一个cookieJar对象,用来保存cookie的值
    cookie = cookielib.CookieJar()
    #通过HTTPCookieProcessor()处理器类构建一个处理器对象,用来处理cookie
    #参数就是构建的CookieJar()对象
    cookie_handler = urllib2.HTTPCookieProcessor(cookie)
    #构建一个自定义的opener
    opener = urllib2.build_opener(cookie_handler)
    # 通过自定义opener的addheaders的参数,可以添加HTTP报头参数
    opener.addheaders = [('User-Agent', 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36')]
    #renren网的登录接口
    url = 'http://www.renren.com/PLogin.do'
    #需要登录的账号密码
    data = {'email':'15********','password':'python********'}
    # 通过urlencode()编码转换
    data = urllib.urlencode(data)
    request = urllib2.Request(url,data = data)
    response = opener.open(request)
    # print response.read()
    # 可以直接爬取登录后的其它页面了
    response_other = opener.open('http://friend.renren.com/managefriends')
    print response_other.read()
    专题推荐:python 爬虫 cookielib httpcookieprocess
    品易云
    上一篇:利用Python对网站进行测速 下一篇:Python中的opener()方法是什么

    相关文章推荐

    全部评论我要评论

    © 2021 Python学习网 苏ICP备2021003149号-1

  • 取消发布评论
  • 

    Python学习网