python-(6-2)爬虫---小试牛刀,获得网页页面内容
创始人
2024-04-06 08:46:34
0

文章目录

  • 一 需求
  • 二 知识点
  • 三 分析
  • 四 代码
  • 五 补充说明

一 需求

爬取得到某搜索引擎官网的网站,并能在pycharm中打开

二 知识点

HTTP协议,即超文本传输协议,浏览器和服务器之间数据交换的基本协议。

服务器渲染:在服务器端,把数据和html整合在一起,统一返回给浏览器,在页面源代码能看到数据。

客户端渲染:第一次请求只要一个HTML骨架,第二次请求拿到数据,并进行数据展示,在页面源代码中,看不到数据。

请求的组成部分

请求行:请求方式,请求url地址,协议
请求头:服务器需要的附加信息
请求体:请求参数

响应的组成部分

状态行:状态码,协议
响应头:客户端需要的附加信息
响应体:客户端真正需要的内容

三 分析

1.从urllib库中导入urlopen,使用它来打开url
2.给需要爬虫的网页url赋值,再赋值给一个变量,可以得到对网站请求的相应信息
3.将得到相应的信息用写入的方式,打开一个新的文件,并用对应的编码方式进行解码
4.打开爬取到的网页,获取页面源代码,并关闭访问的请求

四 代码

# 导入需要的库
from urllib.request import urlopen# 用url变量获得官网的网址
url = "http://www.baidu.com"# 得到访问网站的响应信息
resp = urlopen(url)# 用不关闭文件的方式,打开得到的html文件
# 读取内容时用utf-8编码,写入数据时当然也要用utf-8解码,否则打开的网页中文会变成乱码
with open("baidu.html",mode="w",encoding="utf-8") as f:# 用写入的方式读取网页内容,并根据源码中显示的编码方式进行解码f.write(resp.read().decode("utf-8"))# 获得文件内容后,表示获取成功
print("over!!!!!!!!!!")# 最后记得关闭访问请求,就像打开文件后需要关闭一样
resp.close()

上述代码是完整的获得网站内容的源代码。

在执行代码后,同一个目录的路径下会产生一个“baidu.html"文件,用谷歌浏览器打开这个文件,就可以得到网站官网的页面内容。

五 补充说明

1)在打开文件时使用的参数encoding="utf-8"与解码的参数decode("utf-8")一般要加上的。苹果电脑MAC系统的字符集编码解码默认是utf-8,但笔者的Windows系统字符集编码和解码默认是GBK,因此需要在此处添加参数设置。

2)此处笔者利用with open() as f打开文件,不需要考虑关闭文件;但如果如用open()函数打开网页,需要再加一行代码f.close()关闭文件。

3)在这里需要注意的是,下面的代码在执行后,得到的是网站官网源代码的内容,而不是百度网页的内容信息(如下图)。

# 导入需要的库
from urllib.request import urlopen# 用url变量获得官网的网址
url = "http://www.baidu.com"# 得到访问网站的响应信息
resp = urlopen(url)# 输出获得的相应信息
print(resp.read())

相关内容

热门资讯

中证A500ETF摩根(560... 8月22日,截止午间收盘,中证A500ETF摩根(560530)涨1.19%,报1.106元,成交额...
A500ETF易方达(1593... 8月22日,截止午间收盘,A500ETF易方达(159361)涨1.28%,报1.104元,成交额1...
何小鹏斥资约2.5亿港元增持小... 每经记者|孙磊    每经编辑|裴健如 8月21日晚间,小鹏汽车发布公告称,公司联...
中证500ETF基金(1593... 8月22日,截止午间收盘,中证500ETF基金(159337)涨0.94%,报1.509元,成交额2...
中证A500ETF华安(159... 8月22日,截止午间收盘,中证A500ETF华安(159359)涨1.15%,报1.139元,成交额...
科创AIETF(588790)... 8月22日,截止午间收盘,科创AIETF(588790)涨4.83%,报0.760元,成交额6.98...
创业板50ETF嘉实(1593... 8月22日,截止午间收盘,创业板50ETF嘉实(159373)涨2.61%,报1.296元,成交额1...
港股异动丨航空股大幅走低 中国... 港股航空股大幅下跌,其中,中国国航跌近7%表现最弱,中国东方航空跌近5%,中国南方航空跌超3%,美兰...
电网设备ETF(159326)... 8月22日,截止午间收盘,电网设备ETF(159326)跌0.25%,报1.198元,成交额409....
红利ETF国企(530880)... 8月22日,截止午间收盘,红利ETF国企(530880)跌0.67%,报1.034元,成交额29.0...