python-(6-2)爬虫---小试牛刀,获得网页页面内容
创始人
2024-04-06 08:46:34
0

文章目录

  • 一 需求
  • 二 知识点
  • 三 分析
  • 四 代码
  • 五 补充说明

一 需求

爬取得到某搜索引擎官网的网站,并能在pycharm中打开

二 知识点

HTTP协议,即超文本传输协议,浏览器和服务器之间数据交换的基本协议。

服务器渲染:在服务器端,把数据和html整合在一起,统一返回给浏览器,在页面源代码能看到数据。

客户端渲染:第一次请求只要一个HTML骨架,第二次请求拿到数据,并进行数据展示,在页面源代码中,看不到数据。

请求的组成部分

请求行:请求方式,请求url地址,协议
请求头:服务器需要的附加信息
请求体:请求参数

响应的组成部分

状态行:状态码,协议
响应头:客户端需要的附加信息
响应体:客户端真正需要的内容

三 分析

1.从urllib库中导入urlopen,使用它来打开url
2.给需要爬虫的网页url赋值,再赋值给一个变量,可以得到对网站请求的相应信息
3.将得到相应的信息用写入的方式,打开一个新的文件,并用对应的编码方式进行解码
4.打开爬取到的网页,获取页面源代码,并关闭访问的请求

四 代码

# 导入需要的库
from urllib.request import urlopen# 用url变量获得官网的网址
url = "http://www.baidu.com"# 得到访问网站的响应信息
resp = urlopen(url)# 用不关闭文件的方式,打开得到的html文件
# 读取内容时用utf-8编码,写入数据时当然也要用utf-8解码,否则打开的网页中文会变成乱码
with open("baidu.html",mode="w",encoding="utf-8") as f:# 用写入的方式读取网页内容,并根据源码中显示的编码方式进行解码f.write(resp.read().decode("utf-8"))# 获得文件内容后,表示获取成功
print("over!!!!!!!!!!")# 最后记得关闭访问请求,就像打开文件后需要关闭一样
resp.close()

上述代码是完整的获得网站内容的源代码。

在执行代码后,同一个目录的路径下会产生一个“baidu.html"文件,用谷歌浏览器打开这个文件,就可以得到网站官网的页面内容。

五 补充说明

1)在打开文件时使用的参数encoding="utf-8"与解码的参数decode("utf-8")一般要加上的。苹果电脑MAC系统的字符集编码解码默认是utf-8,但笔者的Windows系统字符集编码和解码默认是GBK,因此需要在此处添加参数设置。

2)此处笔者利用with open() as f打开文件,不需要考虑关闭文件;但如果如用open()函数打开网页,需要再加一行代码f.close()关闭文件。

3)在这里需要注意的是,下面的代码在执行后,得到的是网站官网源代码的内容,而不是百度网页的内容信息(如下图)。

# 导入需要的库
from urllib.request import urlopen# 用url变量获得官网的网址
url = "http://www.baidu.com"# 得到访问网站的响应信息
resp = urlopen(url)# 输出获得的相应信息
print(resp.read())

相关内容

热门资讯

孙杨参赛4项 涵盖短中长距离 转自:天津日报  本报讯(记者 李蓓)昨天,即将在本周末开赛的2025全国游泳冠军赛报项名单出炉。3...
齐鲁品牌文化数智平台共建项目启...   张志恒 王鑫 济南报道  5月13日举行的“新质山东 品筑未来”2025年山东最具影响力品牌暨《...
云湖兰山服务综合体运营 转自:贵州日报 本报讯 5月13日,观山湖区环百花湖旅居推介会暨云湖兰山启幕式在观山湖区朱昌...
守好健康证的“健康关” 人都没到场,证就办好了?近日,有记者走访发现,一些医疗机构的健康证体检项目“缺斤少两”,规章制度形同...
“我的论文不是AI写的”(图) 转自:天津日报  有网友反映,自己原创的论文经过系统检测之后,竟被指出AI生成内容比例过高。据媒体报...
应用机器人与3D打印术行颌骨截...   刘通 通讯员 崔子昂 李鲲济南报道  近日,山东大学齐鲁医院口腔科颌面外科陈安威、王涛、韩亦冰及...
美股周二收盘点评:通货膨胀率下... 来源:宏观对冲陈凯丰Kevin截至4月份的12个月里,消费者物价指数上涨了2.3%,而截至3月份的1...
纽约汇市:美元下跌 美国通胀率...   彭博一项衡量美元强弱的指数兑所有G10货币均走低,此前发布的美国4月份消费者价格涨幅低于预期。投...
要为丘陵山区等研制急需急用的装... □四川日报全媒体记者 阚莹莹  近日,四川省农业农村厅发布2025年“天府良机”薄弱环节关键技术装备...
亮出低空经济发展的未来 □四川日报全媒体记者 高杲 李欣忆7款“四川造”低空产品小鹰-700飞机  ●是目前唯一国产的上单翼...
聆听“沧海龙吟” 共赏民歌之美... 转自:天津日报  本报讯(记者 张帆 摄影 曹彤)昨天,由首都图书馆发起并联合天津图书馆、河北省图书...
彩桥即将合龙   5月12日,宜宾市屏山县岷江二桥工地施工繁忙,建设者对桥梁最后几榀钢拱架进行吊装作业。岷江二桥是...
第二十届西博会5月25日开幕 ●拟邀请匈牙利、老挝为主宾国,浙江、青海为主宾省●拟特邀阿联酋担任大会合作伙伴●据初步统计,西部各地...
各美其美 美美与共 □四川日报全媒体记者 吴晓铃  在古老的历史长河中,留下帕特农神庙、雅典卫城等文明遗产的希腊是西方文...
“公证日记” 转自:天津日报  智慧公证  曾经,办理继承公证需要集齐一沓证明材料,群众要跑好几个部门;如今,滨海...
武清区扎实推进兴业富农 绘就乡... 转自:天津日报  初夏时节,灿烂的阳光夹杂着阵阵微风,深情抚慰着大运河畔的武清区南蔡村镇丁家瞿阝村。...
如皋农商银行:双向奔赴谋发展 ... 4月27日,如皋农商银行举办“跨境人民币赋能外贸企业发展”专题培训会。会议邀请跨境人民币业务优质企业...
泰州农商银行联合海陵区供销总社... 日前,泰州农商银行与泰州市海陵区供销总社在城中街道联合举办“政银携手进社区 惠民助农促消费”系列活动...
将虾苗卖到“小龙虾之乡” □四川日报全媒体记者 陈丽霏  5月,鲜活肥美的小龙虾大量上市,中江县黄鹿镇也迎来了一年中最繁忙的时...
建圈强链 四川农业明确产业“路... 5月11日,四川省大邑县现代农业(粮食产业)园区,工人在试验田中开展小麦新品的测产工作。 李旭 摄(...