Python全系列 教程
3567个小节阅读:5929.9k
目录
鸿蒙应用开发
C语言快速入门
JAVA全系列 教程
面向对象的程序设计语言
Python全系列 教程
Python3.x版本,未来主流的版本
人工智能 教程
顺势而为,AI创新未来
大厂算法 教程
算法,程序员自我提升必经之路
C++ 教程
一门通用计算机编程语言
微服务 教程
目前业界流行的框架组合
web前端全系列 教程
通向WEB技术世界的钥匙
大数据全系列 教程
站在云端操控万千数据
AIGC全能工具班
A A
White Night
有时在访问了请求后,并不能获取想要的数据。很大的原因之一就是,当前的页面是动态的。目前网络的页面分为2大类:
静态页面
动态页面(AJAX)
有些网页内容使用AJAX加载,而AJAX一般返回的是JSON,直接对AJAX地址进行post或get,就返回JSON数据了
xxxxxxxxxx
from urllib.request import Request,urlopen
url ='https://www.hupu.com/home/v1/news?pageNo=2&pageSize=50'
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36'}
req = Request(url,headers = headers)
resp = urlopen(req)
print(resp.read().decode())
'''
静态
访问地址栏里的数据就可以获取到想要的数据。
动态
访问地址栏里的数据就可以获取不到想要的数据。
解决方案:抓包
打开浏览器的开发者工具-network-xhr,找到可以获取到数据的url访问即可
'''
实时效果反馈
1. 关于爬虫,动态网页说法正确的是?
A 网页里的数据都是静态页面
B 网页里的数据都是动态页面
C 网页里的数据是否动态取决于一次URL能否获得到数据
答案
1=>C