网页的新闻在HTML源码中一条都找不到,全是由JS动态生成加载。
遇到这种情况,我们应该如何对网页进行爬取呢?有两种方法:
1、从网页响应中找到JS脚本返回的JSON数据;
2、使用Selenium对网页进行模拟访问
从网页响应中找到JS脚本返回的JSON数据
即使网页内容是由JS动态生成加载的,JS也需要对某个接口进行调用,并根据接口返回的JSON数据再进行加载和渲染。
所以我们可以找到JS调用的数据接口,从数据接口中找到网页中最后呈现的数据。
推荐学习《Python教程》。
网页的新闻在HTML源码中一条都找不到,全是由JS动态生成加载。
遇到这种情况,我们应该如何对网页进行爬取呢?有两种方法:
1、从网页响应中找到JS脚本返回的JSON数据;
2、使用Selenium对网页进行模拟访问
从网页响应中找到JS脚本返回的JSON数据
即使网页内容是由JS动态生成加载的,JS也需要对某个接口进行调用,并根据接口返回的JSON数据再进行加载和渲染。
所以我们可以找到JS调用的数据接口,从数据接口中找到网页中最后呈现的数据。
推荐学习《Python教程》。
© 2021 Python学习网 苏ICP备2021003149号-1