
之前教过大家去解析页面的方式,受到很多小伙伴们的喜欢,有不少小伙伴咨询小编要怎么要学习了解能够解析的基于库,这边让小编,想到了requests库的亲兄弟,beautifulsoup库,他可以做到提取页面信息,并且是提取到有用的信息,现在也是人们常作为使用的一种库,大家可以看看理解理解。
老规矩,先学会安装:
1 | 方式:pip install beautifulsoup4
|
测试是否安装成功:
1 2 3 4 5 | import requests
r = requests.get( "链接" )
demo = r.text
form bs4 import BeautifulSoup
soup = BeautifulSoup(demo, "html.parser" )
|
实例案例演示:
1 2 3 4 5 6 | html = bs4.BeautifulSoup(response.text, features= 'lxml' )
note_list = html.find_all( 'ul' , class_= 'note-list' , limit=1)[0]
for a in note_list.select( 'li>div.content>a.title' ):
title = a.contents[0]
link = f '链接{a["href"]}'
print(f '《{title}》,{link}' )
|
虽然BeautifulSoup也有中文文档,也有一些比较落后的小版本,但是影响不是很大,足够大家在需要解析页面的时候调用了,相信通过上述描述,大家也知道这个库的好用之处了吧,多多学习了解吧~