Python – Spider 爬虫技术

urllib 库的使用

模拟浏览器向服务器发送请求

要使用py访问url获取网页源码,我们可以使用urllib包中的request脚本urlopen方法:

from urllib.request import urlopen

# 打开一个网址,并获得其响应对象
url = 'http://www.baidu.com/'
response = urlopen(url)

# 获取响应码
response.getcode()
# 获取请求url
response.geturl()
# 获取所有响应header
response.getheaders()
# 读取一行html源码
response.readline()
# 读取所有行的html源码
response.readlines()
# 读取所有html源码并解码为utf-8
response.read().decode('utf-8')

 

下载网络资源到文件中

urllib.request.urlretrieve(url=url_page, filename="1.html")

 

如果您喜欢本站,点击这儿不花一分钱捐赠本站

这些信息可能会帮助到你: 下载帮助 | 报毒说明 | 进站必看

修改版本安卓软件,加群提示为修改者自留,非本站信息,注意鉴别

THE END
分享
二维码
打赏
海报
Python – Spider 爬虫技术
urllib 库的使用 模拟浏览器向服务器发送请求 要使用py访问url获取网页源码,我们可以使用urllib包中的request脚本urlopen方法: from urllib.request import urlopen # 打开一个网址,并……
<<上一篇
下一篇>>