• 技术文章 >Python技术 >Python爬虫

    python爬虫获取数据的步骤

    小妮浅浅小妮浅浅2021-09-03 11:02:23原创144

    1、爬取数据,实际上就是根据一个网址向服务器发起网络请求。

    获取服务器返回的数据。

    2、解析数据,将服务器返回的数据转换成易于理解的样式。

    3、过滤资料,从大量资料中筛选出所需资料。

    4、储存资料。

    实例

    from urllib.request import Request
    from urllib.request import urlopen
     
    # 爬取百度首页
    url1 = 'http://www.baidu.com'
    # 用一个变量保存
    request = Request(url=url1)
    response = urlopen(request)
    # print(response.read().decode('utf-8'))
    # 获取的数据是源代码要用decode进行解码操作
    html_string = response.read().decode('utf-8')
    with open('baidu.html', 'w', encoding='utf-8') as fp:
        fp.write(html_string)

    以上就是python爬虫获取数据的步骤,希望对大家有所帮助。更多Python学习指路:python基础教程

    专题推荐:python爬虫
    品易云
    上一篇:python爬虫的分类方法 下一篇:Python爬虫数据采集为什么一定要用代理技术?

    相关文章推荐

    • python爬虫之HTTPError如何理解• python爬虫urlparse方法如何使用• python爬虫之urlunparse()方法怎么用• python爬虫urlsplit()方法如何使用• python爬虫urljoin()生成链接• python爬虫urlencode()方法是什么• python爬虫quote()方法有什么用• python爬虫中aiohttp是什么• 百万数据python爬虫技巧• 如何解决Python爬虫中的代理ip异常和超时问题• python爬虫怎样添加IP池?• python爬虫更适合什么样的IP切换工具?• python爬虫怎么使用代理ip• Python爬虫架构的组成• python爬虫的分类方法

    全部评论我要评论

    © 2021 Python学习网 苏ICP备2021003149号-1

  • 取消发布评论
  • 

    Python学习网